미디어와 AI 기술: 미디어 지능화

Media and AI Technology: Media Intelligence

Electronics and Telecommunications Trends. Vol. 35, No. 5, OctOct 20202020, pp. 92-101

doi : http://dx.doi.org/10.22648/ETRI.2020.J.350508

조용성 (Cho Y.S.)
이남경 (Lee N.K.)
최동준 (Choi D.J.)
서정일 (Seo J.I.)
이태진 (Lee T.J.)
박중기 (Park J.K.)
이현우 (Lee H.W.)
김흥묵 (Kim H.M.)

* 이 논문은 2020년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행된 연구임[2019-0-00287, 인공지능기반 유해미디어(음란성) 분석 검출 시스템 개발].

Translated Abstract

Artificial intelligence (AI) has become the hottest topic in information and communications technology (ICT) in recent years. Along with the advancement of AI technology, technologies such as big data, cloud, and high-speed wired and wireless communication are being applied to existing media areas in earnest, affecting all parts of the media value chain from content production to consumption. AI technology is now spreading across the media industry faster than any other industry. In the future, the gap between those with and without AI technology will widen, further deepening the polarization of the media ecosystem. Media intelligence, which combines media and AI technologies, is now perceived as essential, not optional. In this paper, we examine the current status of technology development and standardization by major domestic and foreign institutions on how AI is being utilized in the media industry. In addition, we discuss what technology should be developed to lead media intelligence.

Keywords: 미디어 지능화, AI, Media Intelligence

Ⅰ. 서론

미디어는 정보 전달을 통해 의사소통을 가능하게 하는 매체라는 의미로, 일반적으로 신문, 잡지, 도서와 같은 인쇄 매체와 TV, 라디오, 영화와 같은 시청각 매체를 포함하는 대중매체, 즉 매스미디어를 일컫는 말이다. 최근에는 정보통신 기술의 발전과 대중화로 미디어의 개념이 매스미디어, 방송, 뉴미디어 등을 모두 포함하는 의미로 확장되었다. 방송은 방송프로그램을 송출하는 TV방송, 라디오 방송, 이동방송 등을 포함하며, 뉴미디어는 디지털화된 미디어를 고속의 통신 연결을 통해 소비하는 온라인 신문, 소셜미디어, SNS, 온라인 동영상 서비스 등을 예로 들 수 있다[1].

미디어 분야는 2000년대 들어 아날로그에서 디지털로의 전환이 시작되었고, IPTV, 이동방송 등 새로운 매체가 나타나기 시작했다. 2010년대 초반에는 유·무선 통신기술의 발달로 인터넷을 기반으로 한 스마트 미디어가 확산되었고, 2010년대 후반은 UHD와 VR/AR로 대표되는 실감 미디어가 등장했다.

현재의 미디어 환경은 매체 간의 경계가 사라지고 시간과 장소에 관계없이 원하는 콘텐츠를 자유롭게 소비할 수 있는 형태로 발전했으며, 향후에는 미디어 분야에 5G, 빅데이터, 클라우드, 인공지능 등의 기술이 더해져 지능화기반의 융합 미디어 시대가 될 것으로 전망된다.

최근 몇 년간 AI 기술은 딥러닝이라는 기계학습을 통한 학습능력 향상, 정보통신 기술의 발전, 컴퓨팅 능력의 향상과 비용 하락 등으로 빠르게 성장하고 있다. AI 기술 자체의 고도화와 함께 빅데이터, 클라우드, 초고속 유무선 통신 등의 기술이 기존의 미디어 영역에 본격적으로 적용되면서 콘텐츠의 기획-제작-편집-유통-소비에 이르는 미디어 가치사슬 전체에 영향을 미치고 있다[2-4].

이제 AI 기술은 다른 어떤 산업 분야보다도 빠르게 미디어 산업 영역의 전반으로 확산되고 있다. 그리고 장래에는 AI 기술을 가진 사업자와 그렇지 못한 사업자와의 격차가 더 벌어져 미디어 생태계의 양극화가 더욱 심화될 것으로 보인다. 이제 미디어 분야에 AI 기술을 결합한 미디어 지능화는 선택이 아닌 필수로 인식되고 있다.

본 고에서는 미디어 산업 분야에서 AI가 어떻게 활용되고 있는지 국내·외 주요 기관들의 기술개발 현황과 표준화 현황을 소개하고자 한다. 또한, 미디어 지능화 선도를 위해 중점적으로 개발이 필요한 기술들에 대해 알아보고자 한다.

Ⅱ. 미디어 분야별 AI 연구 동향

AI 기술의 역할은 미디어의 영역에서 더욱 빨리 확장되고 있다. 초고화질 실감형 콘텐츠 획득·제작 및 편집, 대용량 미디어 압축 성능 향상을 위한 부호화, 전송 대역의 효율 향상을 위한 미디어 전송뿐만 아니라 이용자의 미디어 이용행태와 연령별, 지역별, 시간대별 이용패턴을 자동으로 분석하여 최적의 미디어 생산과 소비가 이루어질 수 있도록 하는 유통과 소비 영역까지 콘텐츠 생성부터 소비에 이르는 거의 모든 영역에서 AI 기술이 활용되고 있다.

구글, 아마존, IBM 등 글로벌 기업들은 AI 기술을 기반으로 하는 플랫폼을 구축하고 미디어 산업의 영역에서 AI를 활용하고 있으며, 그 영역을 더욱 확대해 나가고 있다. 또한, 5G 기술을 보유한 국내·외 통신사들도 초고속 통신을 기반으로 한 미디어 플랫폼 구축을 위해 AI 기술을 경쟁적으로 개발하고 있다.

표 1은 미디어 주요 분야별 국내·외 주요 기관들의 AI 기술 활용 및 표준화 현황을 정리한 것이다.

표 1 주요 분야별 AI 활용 현황

분야	구분	국내·외 현황
기계 미디어	국내	•영상 보안 시스템에 딥러닝을 접목한 지능형 영상분석 기술개발이 ETRI, GIST, POSTECH 등에서 이뤄지고 있음
	국외	•감시, 자율주행 등의 다양한 분야의 수요로 새로운 비전 센서 기술들이 지속적으로 개발되고 있음
	국외	•지능형 영상분석 솔루션들이 인텔, 아마존, 마이크로소프트 등을 중심으로 제공되고 있음
	표준화	•MPEG에서 영상기반 객체인식을 위한 CDVS(Compact Descriptors for Visual Search), CDVA(Compact Descriptors for Video Analysis) 표준이 개발됨
	표준화	•중국 기업의 주도로 AI기반의 인지 추론 알고리즘을 탑재한 기계가 이해할 수 있는 VCM 표준화 논의 시작
AV 부호화	국내	•ETRI는 컨텍스트 적응적 엔트로피 모델기반의 심층신경망 개발
	국내	•구글 대비 약 12% 개선된 성능의 이미지 압축 기술을 보유
	국외	•구글은 오토인코더와 wavenet 인공지능 신경망을 활용하여 1.6kbps에서 동작하는 초저비트율 음성압축 코덱 발표 (2019)
	표준화	•MPEG에서는 AV 부호화를 위한 NN 기술에 대한 AdHoc그룹 생성 및 표준화 논의 시작 예정
미디어 학습 데이터 자가 증식	국내	•SK텔레콤은 데이터 간의 연관관계를 발견하고 자동으로 학습을 이어가는 머신러닝 기술 디스코간(DiscoGAN)을 발표 하고, 하나의 이미지에서 비슷한 분위기(style)의 다양한 형태 이미지를 생성하는 기술 개발
	국내	•네이버랩스는 인물 사진을 이용하여 웹툰 이미지를 생성하는 기술 개발
	국외	•블랙박스 영상에서 프레임 이미지 예측을 통한 영상 생성 모델(PredNet) 제안(Harvard Univ.), 주어진 특성에 적합한 영상을 자동 생성하는 기술(VGANs) 제안(MIT CSAIL)
메타 데이터	국내	•AI 비전 및 음성인식 기술을 통해 영상 내 일부 객체 및 음악 등을 자동 검출(SKT, 보이저X 등)
메타 데이터	국외	•AI 기술을 활용하여 동영상의 메타데이터를 자동 추출하는 서비스를 제공(IBM, Google, Leankr 등)
미디어 콘텐츠 고화질 변환	국내	•삼성전자는 입력 화질에 관계없이 8K 수준의 화질로 업스케일링 해 주는 AI 퀀텀프로세서가 탑재된 TV 발표(2020.1)
	국내	•LG전자는 원본 영상의 화질을 분석해 품질을 향상시키는 인공지능 프로세서 알파9 3세대 칩이 내장된 OLED 8K TV 발표(2020.1)
	국외	•엔비디아는 AI 기술로 HD급 비디오를 4K 60fps HDR 비디오로 변환해주는 안드로이드 TV용 셋톱박스 ‘NVIDIA Shield 3rd Generation’ 출시(2019.11)
	국외	•캐논메디컬은 초고해상도 및 선명한 화질의 진단 영상을 제공하는 AiCE(Advanced Intelligent Clear-IQ Engin) 엔진 개발(2019.7)
미디어 크리에이터	국내	•과기정통부는 I-Korea 4.0 실현을 위한 인공지능 기술 R&D 전략 수립(2018.5.)
	국내	•2022년까지 세계 4대 AI 강국 도약, 우수 인재 5 천명 확보, AI 데이터 1.6억여 건 구축을 전략 목표 추진
	국외	•영국 BBC는 2017년 인공지능 시스템인 ‘Ed’ 개발에 착수, 에딘버러 축제에 다수의 고정된 카메라를 설치하고 샷 추 출과 컷 편집 등 분절된 가상의 샷들을 상황에 맞는 자동 편집 시도
전송	국내	•KAIST 등 학계를 중심으로 기계 학습을 오류정정, MIMO 채널 모델링, 저전력 통신 등 다양한 통신 분야로 적용 시도
	국외	•버지니아 공대, AT&T에서는 2015년부터 딥러닝기반의 통신시스템 설계 관련 연구를 수행하고 있음
	표준화	•ITU-T SG13 FG-ML5G에서 기계학습기반으로 5G를 포함한 차세대 네트워크에 관한 표준화를 진행 중이나 아직 물 리계층 신호처리 관련 구체적이고 실질적인 표준화는 이루어지지 않고 있음
홀로그래피	국내	•학계에서 홀로그램 복원 시 추출된 light field 영상에 발생하는 스페클 잡음 제거를 위해 DL 기법을 사용하는 연구를 발표(2020. Optics Express)
홀로그래피	국외	•미국의 Nguyen 그룹은 디지털 홀로그래픽 현미경에서 발생하는 위상정보 수차보정을 위한 전처리 단계의 위상펼침 (phase unwrapping)과정에 U-net기반의 DL 기법을 적용한 연구를 발표(2017. Optics Express)

Ⅲ. 미디어 지능화를 위한 주요 기술

미디어 지능화는 미디어가 5G, 빅데이터, 클라우드, 인공지능 등 ICT 핵심기술과 융합을 통해 대용량의 수집·저장된 데이터(Data)를 분석하여 의미 있는 정보(Information)를 생성하고, 생성된 정보를 효과적으로 사용자에게 전달(Media)하는 D-I-M(Data-Information-Media)의 지식 가치사슬을 완성하는 지능화 시대의 핵심 인프라로 정의된다[5].

특히, 미디어와 AI 기술의 결합은 AI가 인간의 지적 활동 영역(시각, 언어, 감각, 이해, 학습, 추론 등)을 구현하고 재현함으로써 미디어 전주기(기획-제작-편집-유통-소비)에 참여함을 의미한다. 이로 인해, 미디어의 생산과 소비의 주체가 사람에서 기계로 확장되고, 지능화된 미디어가 사람과 사람, 기계와 기계, 사람과 기계 간의 소통을 매개함으로써 기존 미디어 산업의 큰 변화를 가져올 것이다.

이 장에서는 D-I-M의 지식 가치사슬을 완성하는 미디어 지능화에서 핵심적 역할을 하는 주요 기술들을 소개하고자 한다.

1. 미디어 지능화 기반기술

가. VCM(Video Coding for Machine)

기존의 사람을 위한 영상처리와 부호화 기술로는 기하급수적으로 증가하고 있는 비디오 데이터에 대한 완전한 처리가 불가능하므로, 빅데이터에 기반하는 인공지능 기술의 발전에 배경을 두고 있는 기계를 통한 영상처리 및 인지 기술이 개발되어 적용되고 있다. 그림 1과 같이 사람이 영상을 이해하는 방식(Human Vision)과 기계가 영상을 이해하는 방식(Machine Vision)은 차이가 분명히 존재하므로, 기계와 기계 사이에서 영상을 전달할 때 원본 영상이 아닌 임무 수행에 필요한 영상의 특징(Feature)만을 전송하여 영상신호를 보다 효과적으로 압축할 수 있다. 또한, 사람이 인지할 수 없는 형태로 영상신호를 변환하여 전달하므로 영상 촬영으로 발생할 수 있는 사생활 침해를 막을 수 있다.

그림 1

Human Vision과 Machine Vision

기계를 위한 영상 부호화 기술(VCM)은 HEVC (High Efficiency Video Coding)와 같은 기존의 비디오 압축 기술이 사람이 인지하는 화질을 유지하며 영상신호를 압축하는 것과는 달리, 인식률과 같은 인공지능 엔진의 성능을 유지하며 인간이 아닌 기계를 위한 영상신호를 압축하는 기술이다.

그림 2는 MPEG(Moving Picture Experts Group)에서 논의되고 있는 VCM의 구조도이다. VCM은 영상 센서로부터 영상신호를 직접 입력받거나 영상신호에서 특징 정보를 추출하여 압축된 비트스트림을 구성하여 전달하며, 기계의 임무 수행을 위한 영상(Machine Vision) 또는 사람이 보기 위한 영상(Human Vision)으로 복원하여 사용하게 된다. 기계를 위한 영상 부호화 및 복호화 과정에서 심층신경망이 활용될 수도 있으므로 심층신경망과의 인터페이스도 제공될 수 있다[6].

그림 2

MPEG VCM 구조도

MPEG에서는 2020년 10월 VCM 표준화를 준비 그림 1 Human Vision과 Machine Vision 하기 위한 Call for Evidence를 공표할 예정이며, 본격적인 표준화는 2021년 중순 이후 진행될 것으로 전망된다[7].

나. NNAVC(Neural Network based A/V Coding)

NNAVC는 사람의 인지 화질/음질을 유지하면서 비디오/오디오 신호를 압축하는 기존의 미디어 부호화 기술에 AI 기술을 접목하여, 기존 미디어 부호화 기술의 한계를 뛰어넘는 AI기반 고품질/고효율 미디어 부호화 기술이다.

그림 3과 같이 전통적인 비디오 부호화 기술은 시간/공간 중복성과 데이터 중복성을 줄이기 위해 화면 내/간 예측, 주파수 변환, 양자화 및 엔트로피 부호화 등 다양한 압축툴을 통해 비디오 데이터를 압축한다. AI기반의 비디오 부호화 기술은 상기 다양한 비디오 압축툴을 AI기반의 새로운 압축툴로 대체함으로써 기존 비디오 부호화 기술의 압축 성능을 더욱 개선할 수 있다. 또한, 비디오 부호화의 모든 과정을 하나의 신경망으로 처리하는 단일 신경망기반 비디오 부호화 기술도 가능하다[8].

그림 3

AI를 활용한 비디오 부호화 기술

그림 4와 같이 오디오 신호 대역(코어대역, 중대역, 고대역)별로 AI를 적용하여 오디오 부호화 기술의 성능 한계를 극복할 수 있다.

그림 4

AI를 활용한 오디오 부호화 기술

음질에 민감한 코어대역은 선형예측과 잔차신호에 대해 AI 기술을 적용하여 압축을 수행하고, 중대역 신호는 AI기반 예측을 통해 손실된 주파수 정보를 복원하는 방법으로 압축효율을 개선할 수 있다. 고대역 신호는 비트 할당 최소화 및 음질 손상 최소화를 위해 NN기반의 차원 축소 기술과 선형 양자화 기술을 적용하여 압축효율을 개선할 수 있다.

최근 MPEG에서 AI기반의 비디오/오디오 부호화 기술에 대한 논의가 활발하게 진행되고 있으며, 차세대 비디오/오디오 부호화 기술에서는 툴 단위로 AI 기술이 본격적으로 활용될 것으로 예측된다.

다. 미디어 콘텐츠 메타데이터 자동 생성 기술

미디어 콘텐츠 메타데이터 자동 생성 기술은 미디어 콘텐츠의 특성을 인공지능기반으로 해석하여 다양한 환경에서 활용 가능한 메타데이터를 자동으로 생성하고 구축하는 기술이다.

그림 5는 미디어 콘텐츠의 고유 속성과 시계열적 특성을 해석하여 유연한 구조의 메타데이터를 자동 생성하는 미디어 콘텐츠 자원화 핵심 기술인 AI기반 콘텐츠 메타데이터 자동 생성 플랫폼이다.

그림 5

AI기반 메타데이터 자동 생성·플랫폼

콘텐츠의 속성과 맥락을 지능적으로 해석하기 위한 AI 학습데이터 구축, 콘텐츠를 해석하여 콘텐츠의 핵심 구성 요소 및 맥락의 요약 추출, 미디어 콘텐츠의 시계열 속성의 메타데이터 표현, 메타데이터를 용이하게 공유·활용할 수 있는 데이터 프라이버시형 메타데이터 인코딩 및 디코딩, 신뢰할 수 있는 미디어·콘텐츠 생산/유통/소비 환경 제공을 위한 미디어 트러스트 메타데이터 확장 기술로 구성된다.

미디어 서비스 사업자는 콘텐츠의 컨텍스트 분석을 통해 클립기반 서비스, 하이라이트 서비스 등 다양한 형태의 서비스 제공을 통해 콘텐츠의 서비스 형태 다양화를 이룰 수 있다. 또한, 소비자에게 콘텐츠 검색, 미디어 커머스 및 개인화 서비스 제공을 위한 미디어 부가서비스를 제공할 수 있다.

라. 미디어 데이터 자가증식

인공지능 및 딥러닝 연구를 위해서는 레이블이 기재된 대량의 학습데이터가 필요한데, 이에 필요한 충분한 데이터 확보가 매우 어려운 실정이다. 미디어 데이터 자가증식 기술은 소량의 레이블 된 데이터로부터 스스로 그 수를 늘려 대량의 영상 데이터를 확보하는 기술이다.

최근 이미지, 텍스트 등 다양한 단일 모달리티(Modality) 데이터에 대한 생성 및 자가증식 기술이 제안되고 있으며, 실제 모델의 학습 성능을 향상시키고 있다[9,10]. 미디어 데이터는 음성, 이미지, 텍스트로 이루어진 다중 모달리티 데이터이며, 연속된 프레임으로 이루어진 시퀀스 데이터이므로, 학습을 위한 데이터 증식 과정에서 이런 미디어 데이터의 특성이 고려되어야 한다. 미디어 데이터에서 순간을 표현하는 프레임은 이미지로 간주할 수 있어서 이미지 데이터의 자가증식 기술을 쉽게 적용할 수 있을 것 같지만, 시퀀스 내 데이터의 연속성을 담보하기는 힘들다. 따라서 미디어 데이터의 자가증식을 위해서는 시퀀스에 대한 변화를 어떻게 줄 것인가가 핵심이라 할 수 있다.

한국전자통신연구원의 영상 미디어 자가증식 기술은 이러한 시퀀스 데이터 자가증식을 위한 초기 시도로 볼 수 있다[11]. 그림 6과 같이, GANs(Generative Adversarial Networks)를 이용하여 미디어 데이터를 생성한다. 입력으로 초기 영상이 주어지면, 생성 모델은 개별 프레임을 이전 프레임에서 추출된 정보를 기반으로 새로운 프레임을 생성하며, 판별 모델에서는 개별 프레임이 실제 프레임과 동일한 분포에서 샘플링되었는지와 프레임의 시퀀스가 비디오로서 유의미한지를 동시에 판별한다. 뿐만 아니라, 각 영상의 클래스 정보를 함께 검증한다. 따라서 주어진 미디어 데이터와 연속성을 가지는 새로운 데이터가 생성될 수 있다. 자가증식을 통해 생성된 데이터는 미디어 데이터로서 유의미하면서 동시에 기존 데이터와는 차별화된 시퀀스 특성을 가지게 되어, 학습데이터의 variance를 넓히는 역할을 할 수 있다.

그림 6

영상 데이터 자가 증식 기술 개념도

학습용 데이터의 확보 여부는 딥러닝 기술에서 모델의 성능을 좌우하는 가장 큰 요소이다. 미디어 데이터의 특성상 초상권, 저작권 등 다양한 법적 문제들이 데이터를 활용하기 전에 해소되어야 하며, 이로 인해 대용량의 데이터 구축 및 활용은 많은 비용을 동반한다. 따라서 미디어 데이터 자가증식 기술은 학습데이터 확보에 큰 도움을 줄 수 있어 미디어 도메인의 모델 구축을 위한 핵심 기술로 볼 수 있다.

2. 미디어 지능화 핵심기술

가. AI기반 미디어 콘텐츠 제작·편집 기술

AI기반 미디어 콘텐츠 제작·편집 기술은 인공지능기반으로 스토리와 핵심 내용이 전개될 수 있도록 영상 등 콘텐츠 구성 요소를 지능적으로 획득하고 편집하는 기술이다.

그림 7의 예시와 같이 스포츠 경기를 촬영하는 다중 카메라에서 획득한 영상을 주요 플레이어 중심으로 자동으로 제작하거나, 다중 카메라에서 획득한 영상의 실시간 검증 및 보정을 통해 다수의 카메라 영상 중에서 가장 적합한 영상을 선택하고 보정할 수 있다. 또한, 대량(복수) 영상 소스를 스토리-시놉시스에 따라 지능적으로 편집하고, 미디어 콘텐츠 맥락을 이해하여 콘텐츠를 구성하는 추가 설명이나 자막 등의 부가정보를 자동으로 생성할 수 있다.

그림 7

AI기반 미디어 제작·편집 플랫폼

나. 미디어 콘텐츠 고품질·고화질 변환 기술

미디어 콘텐츠 고품질·고화질 변환 기술은 클라우드의 막대한 컴퓨팅 파워를 기반으로 콘텐츠의 화질 결정 요소를 지능적으로 분석하여 화질을 개선하고 콘텐츠의 핵심 맥락을 유지하는 지능적 변환 기술이다.

그림 8은 콘텐츠 속성에 대한 인공지능 해석을 기반으로 화질 결정 요소를 지능적으로 향상시키는 AI기반 고품질/고화질 변환 기술을 나타낸 것이다.

그림 8

AI기반 고품질/고화질 변환 기술

화질 향상 대상 콘텐츠에 대한 AI 학습 데이터를 구축하고, 시청 환경을 고려하여 콘텐츠의 공간과 시간 해상도를 증가시키고, 색역 변환 단계에서는 HDR 색 공간 확장 및 BT709, BT2020 색역 확장 등 콘텐츠 색 구성 정보의 지능적 확장 및 변환이 진행된다. 화질 개선 단계에서는 구작 비디오의 부호화 왜곡 제거 및 화질 향상이 이루어진다. 추가로 콘텐츠의 관심영역을 중심으로 화면 비율을 재구성할 수 있다. 이를 통해 SD급의 저화질 콘텐츠를 HD급으로, 2K급 콘텐츠를 4K/8K UHD 급으로 화질을 개선하고, 콘텐츠의 핵심 내용을 중심으로 화면비를 4:3에서 16:9로 변환하거나, 가로로 된 영상을 세로로 변환하는 것이 가능하다.

기존 제작된 미디어 콘텐츠를 고품질·고화질 콘텐츠로 변환하는 기술을 통해 UHD 콘텐츠 수요 대비 부족 문제를 해결할 수 있고, 콘텐츠 제작 비용을 절감할 수도 있어 고품질/고화질 비디오 수요 충족 및 콘텐츠 산업 활성에 기여할 수 있을 것이다.

다. 기계학습기반 초실감 미디어 전송 기술

무선전송에서 대역을 최적화하여 효율을 높이는 것은 매우 중요하다. 따라서 신호 전송에서 발생하는 간섭, 주파수 및 시간 주파수상에서 왜곡, 외부 잡음 등 많은 부분을 극복하여야 하지만, 이들을 수학적으로 정확히 모델링하고 예측하기 어렵다. 최근 이러한 외부 간섭 및 잡음 요소에 대한 모델링 및 예측을 위하여 기계학습이 적용되고 있다.

그림 9는 초실감 미디어 전송의 한계(대역 효율, 저전력 광대역 전송, 전송 채널 모델 예측)를 극복하기 위하여 기계학습을 기반으로 초실감 미디어를 전송할 수 있는 기계학습기반 초실감 미디어 전송기술 개념도다. 휴대기기를 통한 대용량 초실감 미디어 소비 증가에 따라 전력 소모를 최소화하는 전송기술이 요구되지만, 고속 전송을 위해 주파수 대역폭이 광대역화됨에 따라 기존과는 다른 개념의 저전력 통신방식이 필요하다. 이러한 문제를 해결하는 방법으로 기계학습을 통해 송신 신호를 수신단에서 일정한 시간 동안 학습한 후, 실제 신호를 송수신한다. 이때 저전력 통신을 위하여 100MHz 이상 광대역폭에서 3Bits 이하의 낮은 양자화로 샘플링하여 처리한다.

그림 9

기계학습기반 초실감 미디어 전송 기술

기계학습기반의 송수신 최적화를 통해, 기존의 수학적 알고리즘으로 달성하기 어려운 송수신 기술의 개발 및 주파수 이용효율 향상 기술을 개발할 수 있을 것으로 기대된다.

또한, 대용량의 초실감 미디어 전송을 위해 밀리미터 대역에서 초광대역 신호처리가 필요한데, 이때 기계학습기반의 저전력 전송기술이 경쟁력 있는 해결 방안이 될 것으로 예상되며, 향후 5G/6G 기반의 초실감 미디어 전송 분야에서 효과적으로 사용할 수 있을 것이다.

라. DLDH(Deep-Learning based Digital Holography)

DLDH 기술은 그림 10과 같이 기존의 컴퓨터 계산을 통해 홀로그램을 생성하는 CGH(Computer Generated Hologram) 기술, 실제 공간상의 물체로부터 나오는 광파(Optical Wavefield)를 직접 획득하는 DH(Digital Hologram) 기술, 그리고 획득한 홀로그램을 2차원 홀로그램 영상으로 시각화할 수 있는 수치복원(Numerical Reconstruction) 기술에 딥러닝 기법을 적용한 디지털 홀로그래피(Digital Holography) 기술이다[12].

그림 10

Deep-learning based Digital Holography 개념도

CGH 기술은 실제 물체로부터 홀로그램을 획득하는 대신에 가상의 3차원 물체의 홀로그램을 컴퓨터상에서 계산을 통해 생성해 낼 수 있다. 이와 달리 DH 기술은 3차원 실제 물체로부터 나오는 광파 정보를 CCD와 같은 디지털 측정 장치를 이용하여 측정함으로써 실제 물체의 홀로그램을 직접 획득하는 기술을 말한다. 이는 기존의 정교한 광학 장치를 요구하는 기록 매질(Recoding Material) 기반의 아날로그기반 홀로그램 획득 기술을 대체할 수 있는 기술로 볼 수 있다. 이러한 다양한 기술들로부터 최종 획득된 홀로그램은 컴퓨터상에서 파면 전파(Wavefield Propagation) 기술을 이용하여 원하는 위치에서의 파면 정보를 계산할 수 있어, 이를 이용하면 물체로부터 나오는 파면의 3차원 공간 전파 과정을 컴퓨터를 이용하여 미리 시뮬레이션할 수 있게 된다. 또한, 이 기술을 응용하면 수치복원을 통하여 광학적으로 재현하고자 하는 홀로그램 영상을 컴퓨터상에서 가상으로 미리 렌더링하여 확인할 수 있고, 고가의 복잡한 광학 장치가 필요한 광학 복원 이전 단계에서 컴퓨터에서 가상으로 미리 재현해서 결과를 확인할 수 있는 장점이 있다. 그러나 이러한 기술들은 방대한 컴퓨팅 파워 및 리소스를 필요로 하는데, 딥러닝 기법[13,14]과 결합할 경우 계산 시간 및 품질을 획기적으로 단축할 수 있을 것으로 예상되며, 홀로그램 원리를 기반으로 하는 획득/생성, 압축, 복원 등 미디어 가치사슬의 실용화를 앞당길 수 있을 것으로 기대된다.

Ⅳ. 결론

AI 기술은 다른 어떤 산업 분야보다도 빠르게 미디어 산업의 전반으로 확산되고 있다. 이미 AI 기술을 활용한 콘텐츠 검색 및 추천, 시청자 이용행태 분석, 자동 자막 생성 및 삽입, 콘텐츠 자동 분석 및 편집 등의 기술은 기존 기술을 위협할 정도의 수준으로 빠르게 상용화가 진행되고 있고, 로봇 저널리즘, 인공지능기반 미디어 창작 등의 기술도 빠르게 발전하고 있다[15].

AI를 기반으로 한 미디어 지능화가 미디어 산업에 많은 영향을 미칠 것이라는 데는 의문의 여지가 없을 것이다. 미디어 생산 단계에서의 자동화는 앞으로 훨씬 더 빠르게 진행되어 생산성이 향상되고, 유통과 소비 단계에서는 AI를 활용해 운영을 자동화하고 소비자의 의사결정을 유도하여 개인화된 소비 경험을 제공할 수 있을 것이다. 또한, 미디어 지능화는 미디어를 쉽게 창작하고 연결할 수 있게 되어 양적으로 풍부해지고 그 영향력이 더욱 커진 미디어의 불법적 사용, 왜곡, 범죄 등 예기치 못한 부작용 등의 역기능을 정화할 수 있는 수단을 제공할 수도 있다.

미디어의 지능화는 미디어의 다양성과 콘텐츠 제작의 효율성을 증가시킴으로써 미디어와 관련된 다양한 분야의 진화와 발전을 가져올 것으로 기대되는 한편, 미디어 생태계의 진입 장벽을 낮춰 미디어 플랫폼 사업을 중심으로 이종 사업자 간의 경쟁을 더욱 심하게 만들고 미디어 생태계의 양극화를 더욱 심하게 만들 것이다.

미디어 지능화는 이제 선택이 아닌 필수적인 요소가 되었다. 미디어 지능화를 통해 미디어 산업의 활성화와 기술 경쟁력을 확보할 수 있도록 더 많은 관심과 노력을 기울여야 할 것이다.

용어해설

미디어 지능화(Media Intelligence) 미디어가 5G, 빅데이터, 클라우드, 인공지능 등 ICT 핵심기술과 결합하여 대용량의 수집·저장된 데이터(Data)를 분석하여 의미 있는 정보(Information)를 생성하고, 생성된 정보를 사용자에게 효과적으로 전달(Media)하는 D-I-M(Data-Information-Media) 지식 가치사슬을 완성하는 지능화 시대의 미디어 핵심기술

약어 정리

Artificial Intelligence

CDVA

Compact Descriptors for Video Analysis

CDVS

Compact Descriptors for Visual Search

CGH

Computer Generated Hologram

DLDH

Deep-learning based Digital Holography

Digital Holography

GANs

Generative Adversarial Networks

HDR

High Dynamic Range

HEVC

High Efficiency Video Coding

MPEG

Moving Picture Experts Group

Neural Network

NNAVC

Neural Network based Audio/Visual Coding

VCM

Video Coding for Machine

참고문헌

[1] 김성민, 정선화, 정성영, "세상을 바꾸는 AI 미디어 : AI 미디어의 개념 정립과 효과를 중심으로," ETRI Insight Report, 2018.

[2] 차영란, "광고 및 미디어 산업 분야의 인공지능(AI) 활용 전략," 한국콘텐츠학회논문지, 2018.9, pp. 102-115.

[3] Y. LeCun, Y. Bengio, and G. Hinton, "Deep learning," Nature, 2015, Vol. 521, No. 7553, pp. 436-444.

[4] "How artificial intelligence is transforming the media industry," https://www.technologyrecord.com

[5] 허필선, 석왕헌, "지능화 시대의 미디어 역할 정립," ETRI Insight Report, 2019.

[6] ISC/IEC JTC1/SC29/WG11 N19506, "Use cases and draft requirements for Video Coding for Machines," Online, July 2020.

[7] ISC/IEC JTC1/SC29/WG11 N19508, "Draft Draft Call for Evidence for Video Coding for Machines," Online, July 2020.

[8] 이태진, "미디어 부호화 기술의 현재와 미래," 컴퓨터월드 2020년 4월호.

[9] Z. Zhong, L. Zheng, G. Kang, S. Li, and Y. Yang, "Random Erasing Data Augmentation," In Proceedings of the AAAI Conference on Artificial Intelligence, 2020.

[10] J. Wei and K. Zou, "EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks," In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing, 2019, pp. 6382-6388.

[11] 손정우, 한민호, 김선중, "인공지능기반 영상 콘텐츠 생성 기술 동향," 전자통신동향분석, vol. 34, no. 3, 2019, pp. 34-42.

[12] K. Matsushima, "Introduction to Computer Holography: Creating Computer-Generated Holograms as the Ultimate 3D Image," Springer Nature, 2020.

[13] R. Horisaki, R. Takagi, and J. Tanida, "Deep-learning-generated holography," Applied Opt., vol. 57, no.14, 2018, pp. 3859-3863.

[14] A. Sinha et al., "Lensless computational imaging through deep learning," Optica, vol. 4, no. 9, 2017, pp. 1117-1125.

[15] BBC News, "Microsoft to replace journalists with robots," 2020. 5. 30.