현재 사용중인 브라우저 정보

귀하께서 사용하시는 브라우저 종류는 인터넷 익스플로러 브라우저 입니다.

원할한 W브릿지 이용을 위해서는 Edge 브라우저나
Chrome 브라우저를 이용해주시기 바랍니다.

Wbridge 로고

과학기술커리어트렌드

미래유망직업

[전문가칼럼] 글을 비디오로 생성해 주는 시대

#생성형AI#소라AI#텍스트투비디오#여성과학기술인

조회수 431 좋아요2 작성일2024-05-22




글을 비디오로 생성해 주는 시대: 생성형 AI 플랫폼 ‘MOAI’ 개발사 맥케이 대표 최재호

고려대학교 전산학과 박사 2005~2011

연세대학교 연구원 2011~2013

ATG 연구소장 2013~2019

동양대 겸임교수 2022~2024

현 맥케이 대표이사 2020~



생성형 AI 현재 상황과 발전속도

2024년 2월 15일, 오픈AI(OpenAI)는 소라 AI(Sora AI)가 생성한 동영상을 공개했다. 높은 퀄리티, 단순한 작업과정이라는 장점을 들은 콘텐츠 제작 업계 종사자들은 자신들의 업무가 사라질지도 모른다고 생각하게 됐다. 일반 사용자들은 실제로 이런 시스템을 언제쯤 사용하게 될 수 있을지 궁금해했다. 알파고의 등장과 함께 인공지능이 인간을 대체할 수 있을지도 모른다는 생각에 크게 한 걸음 나아간 사건이었다. 

이 글에서는 일반 사용자들도 체감할 수 있는 생성형 인공지능 활용의 시발점이 된 이번 이벤트를 시작으로  ‘텍스트 투 비디오(Text to Video)’ 생성형 인공지능의 기술이 어디까지 왔고 앞으로 어떻게 나아갈지, 그리고 그 기술이 가져올 사회 변화는 어떠할지 생각해 보고자 한다. 

텍스트 투 비디오 생성형 인공지능의 개념은 단순하다. 사용자는 원하는 이미지를 글로 표현해 적으면 AI가 그 글을 비디오로 만들어 준다. 2015년 ‘얼라인 드로우(AlignDRAW)’라는 그림을 자동으로 생성해 주는 인공지능 알고리즘이 처음 논문으로 발표되었을 때만 해도 생성되는 이미지는 사물이라고 알아볼 수 없을 정도로 초라한 이미지였다. 그랬던 이미지, 혹은 영상 생성형 인공지능 기술이 단 10년 만에 소라 AI 수준으로 발전했다.

소라 AI 에서 내놓은 영상에 놀란 것은 일반 사용자들만이 아니다. 생성형 인공지능을 연구하고 개발하던 전문가들조차 그 정도 품질의 영상이 이렇게 빨리 등장한 것에 놀랄 수밖에 없었다. 2025년 혹은 2026년쯤에 나오지 않을까 싶은 품질의 영상이 그것도 예상보다 훨씬 더 고품질로 느닷없이 발표된 것이다. 이렇듯 Text-to-Image, Text-to-Video 생성형 AI의 발전 속도는 전문가들조차 예측을 못 할 정도로 빠르게 발전하고 있다. 

실제로 관련 R&D를 주도하는 정부 부처에서조차 발전 속도의 예측이 어려워 다년 사업을 기획하고 준비하기가 어렵다는 말이 들린다. 3년 사업을 통해 개발하는 계획을 수립했는데, 1년도 안 되어 개발이 완료된 결과물이 해외에서 상용화되어 나올 수도 있는 상황이라면 충분히 이해가 되는 상황이다. 


그림 1. Sora 생성 영상 캡쳐(출처:OpenAI)

이 시점에서 우리는 생성형 인공지능 기술의 근본적인 문제를 짚어볼 필요가 있다. 너무 빠른 기술의 발전으로 인해 우리의 삶, 우리나라의 관련 시장들은 어떤 영향을 받을까?

많은 사람이 생성형 AI는 돈이 많이 드는 사업이라는 것을 알고 있다. 고성능 GPU 장비를 사기 위해서 주문을 넣어도 몇 년을 기다려야 할 만큼 하드웨어는 불티나듯 팔려 나간다. 심지어 그 장비들의 가격은 수천에서 수억 원에 이르는데도 없어서 팔지 못하고, 오픈 AI에서는 더 많은 장비 확보를 위해 9,000조 원을 투자 받아 GPU를 직접 생산하겠다고 한다.

돈, 인력, 데이터의 양이 결국 생성형 인공지능의 품질을 결정하는 것은 사실이다. ‘엄청난 비용을 감당하면서 개발을 해 나갈 것인가? 글로벌 빅테크 기업이 개발해 놓은 결과물을 비용을 내고 사용할 것인가?’에 대한 문제를 경제 논리만 놓고 보면 대부분 후자가 이득이라는 결론을 내린다. 자연스러운 시장경제 논리지만, 이 논리를 우리나라 K-콘텐츠 산업과 연계해 보면 위기감이 느껴진다. 

K-웹툰, K-드라마, K-pop 등등 우리나라는 콘텐츠 시장에서 글로벌 시장을 선도하는 위치에 올라서고 있다. 하지만, 생성형 AI가 콘텐츠를 주도하는 시장에서도 그 위치를 유지할 수 있을까? 몇 개의 글로벌 빅테크 기업이 과연 우리나라의 콘텐츠 시장을 위한 생성형 AI를 만들어 줄 이유는 없다. 

그들은 글로벌 시장에 적합한 인공지능, 나아가 일반인공지능(AGI, Artificial General Intelligence)을 개발한다. 우리는 새로운 인공지능 시대에 빅테크 기업의 ‘기술식민지’가 될 수 있다. 그들에게 의존하고, 그들이 지원해 주지 않으면 현저히 떨어지는 생산성으로 콘텐츠를 제작할 수밖에 없다. 




생성형 AI로 인해 바뀌어 갈 콘텐츠 시장

콘텐츠 시장은 생성형 AI의 영향 혹은 지배를 받는 시대가 올 것으로 보인다. 생성형 AI 기술의 발전이 항상 예상보다 빨랐던 지금까지의 경험으로 보면, 그 시기는 4~5년 후도 아닌 2~3년 혹은 그보다 더 빠르게 올 수도 있을 것이다. 우리나라 K-콘텐츠를 선도하는 전통의 미디어 콘텐츠 생성 업계, 방송사, 드라마/영화 제작사, 광고 제작사, 엔터테인먼트사 등등은 지금 무슨 생각을 하고 있던 그보다 더 빠른 시장 변화를 맞이하게 될 것으로 보인다. 

지금 생성형 AI 시장 상황을 고려하면, 전 세계 모든 콘텐츠 관련 업계는 오픈 AI, 구글 등과 일해야 하는 상황을 선택하든, 비효율적이지만 지금 형태의 콘텐츠 생산방식을 유지하든 선택해야 할 수도 있다. 항상 시장은 냉혹하다. 승자가 누구일지는 자명하다. 미디어 시장의 콘텐츠 생산방식의 패러다임이 생각보다 더욱 빠르게 변화해야만 하는 이유다. 

국내 생성형 AI 시장은 K-콘텐츠 생성에 대응할 수 있는 기술 개발과 준비를 해야 한다. 하지만, 현실은 OpenAI, Midjourney 등의 글로벌 빅테크 기업의 API 를 활용하는 선택을 하는 경우가 대부분이다. 이유는 단순하다. 기술 개발에는 돈이 많이 들지만, API만 가져다 쓰면 그들이 만들어 놓은 알고리즘이 돌린 결과물을 싸게 가져다 쓸 수 있기 때문이다. 대부분의 국내 기업은 핵심 알고리즘과 기술은 글로벌 빅테크 기업이 제공하는 것을 쓰는 것으로 선택한다. 

문제는 핵심 알고리즘을 모르면 응용할 수가 없다는 점이다. 한국적인 색채를 입히고 한국의 연출 방식을 적용하기 위한 노하우는 글로벌 빅테크 기업이 지원할 이유가 없다. 막대한 비용을 지급한다면 해줄 수도 있겠지만, 그 또한 더 큰 콘텐츠 시장인 글로벌 시장에서 가능할지 의문이다. 

현재 글로벌 시장에서 선도적 위치에 있는 K-콘텐츠의 위상은 생성형 인공지능이 발전할수록 떨어질 수밖에 없을 것이다. 미국, 중국 등이 몇몇 국가가 선도하고 있는 생성형 인공지능 시장의 기술 발전이 콘텐츠 산업에 영향을 미칠 수밖에 없다. 결국 문화도 생성형 인공지능 기술이 발전한 나라에서 주도하게 될 것이다. 

글로벌 경쟁력, 문화시장을 제외하고 생각해도 콘텐츠 시장에서 생성형 인공지능이 차지하는 비중은 높아질 수밖에 없다. 2023년 한국언론진흥재단에서 조사한 ‘어린이 미디어 이용 조사’에 따르면, 어린이 하루 평균 미디어 이용 시간은 3시간 이상이다. 2007년 아이폰 1세대가 발매된 이후 자라난 아이들은 텍스트보다는 비디오를 통해 많은 것을 배워온 세대이다. 2024년 현재 그렇게 자라난 세대가 20대에 들어서기 시작하고 곧 사회 주류층을 이루게 된다. 

전통적 콘텐츠 생성 인프라는 한정적이나, 이미지, 비디오 콘텐츠의 시장은 연평균 15.6%로 빠르게 성장하고 있다 . 수요는 성장하는데, 공급은 수요를 못 따라간다면 당연히 그 틈을 메워 줄 수 있는 기술인 생성형 인공지능 시장은 빠르게 성장할 수밖에 없다. 

소라 AI의 영상이 지금 당장 콘텐츠 생성에 쓰일 것이라는 말을 하는 것이 아니다. 소라 영상 생성을 위해 지금은 몇백억의 GPU 장비를 이용해 전기세만 몇천만 원이 나온다는 이야기가 있다. 이러한 상황에서 생성형 인공지능을 활용한 ‘텍스트 투 비디오’ 생성은 먼 이야기로 들릴 수도 있겠지만, 계속 이야기한 바와 같이 생성형 인공지능 기술의 발전은 전문가들의 예측보다도 훨씬 빠르고 그 생산 비용도 빠르게 낮춰질 것이다. 




생성형 AI관련 이슈와 미래 전망

지금까지 이야기만 놓고 보면, 우리나라 생성형 AI와 콘텐츠 시장의 미래는 암울하다. 우리는 결국 글로벌 빅테크 기업 몇 군데에 의존한 AI 활용만 하는 기술식민지가 되어야만 하는 운명인가? 

결론부터 이야기하면 당연히 그렇지 않다. 지금 글로벌 빅테크 AI 기업들도 당면한 문제가 있다. 

첫째, 법적,윤리적 문제이다. 현재 생성형 AI 기술의 발전 속도는 법과 제도의 규제가 따라가지 못할 정도로 빠르다. 하지만 결국 법과 제도 안에서 움직이게 될 것이며, 이에 대한 대응이 필요하다. 

둘째, 저작권 이슈가 있다. 수많은 학습 데이터가 이용되지만, 과연 그 모든 데이터의 저작권 이슈가 해결된 채 활용되었는지는 의문이다. 

셋째, 기술적 문제이다. 할루시네이션(Hallucination) 문제는 대표적 기술적 문제이다. 모든 문제에 답을 내다보니, 답이 아니지만 답처럼 보이는 결과를 현재 생성형 인공지능들은 내놓고 있다. 

마지막으로 사업화 자체의 문제이다. 이미지, 비디오를 생성하기 위해서는 막대한 하드웨어, 인력 등의 비용이 들어가는데, 사용자가 지급하는 비용으로는 그 비용 자체가 감당이 안 된다. 이러한 문제들의 해결책을 빠르게 찾는 노력은 결국 몇몇 글로벌 기업들에 대한 국내 의존성을 낮춰 줄 수 있는 동력을 제공할 수 있다. 

국내 콘텐츠를 보호하기 위한 제도, 저작권 강화를 통한 국내 데이터의 보호, 현재 생성형 인공지능 서비스들의 문제점에 대한 해결책 제시, 국내에서만 할 수 있는 새로운 비즈니스 모델의 제시 등이 필요하다. 이러한 인식을 바탕으로 생성형 AI에 적용할 수 있는 PPL이라는 새로운 비즈니스 모델을 적용한 ‘reloAD’, 국내 웹툰 시장의 요구를 반영한 문맥 유지가 가능한 이미지 생성형 AI ‘MoAI’등의 국내형 “텍스트 투 이미지”, “텍스트 투 비디오”의 개발 노력은 지속되고 있다. 


그림 2. 이미지 생성형 AI 결과물을 활용한 PPL 모델적용의 예 

그림 3. 문맥이 유지되는 이미지 생성의 예


생성형 인공지능은 결국 콘텐츠 시장과 다양한 관련 시장과 우리 사회에 큰 지각변동을 가지고 올 것이다. 생성형 인공지능을 활용했을 때 가장 큰 사회적 문제 중 하나는 콘텐츠 생성을 위한 노동 시장의 축소를 들 수 있다. 단기적으로만 생각하면 심각한 문제일 수 있다. 사람이 할 일의 많은 부분을 생성형 인공지능이 한다면, 그만큼 일자리가 줄어들 수 있기 때문이다. 

그렇지만, 다르게 생각하면 AI는 단순한 업무를 하고, 사람은 좀 더 창조적인 업무를 할 기회가 생긴다. 웹툰 시장을 예로 들면 단순 채색을 반복하기보다는 보다 창조적인 스토리 작업, 그림체 개발, 연출 등을 할 수 있는 시간과 인력이 풍부해진다고도 볼 수 있다. 

현재 생성형 AI가 해주는 업무는 아주 단순한 업무라기 보다는 중급 인력이 해야 할 일을 대체할 확률이 높다. 가장 우려되는 점은 생성형 AI의 활용이 보편화된 이후 십 년 혹은 이십 년 후이다. 초급 인력이 고급 인력이 되기 위해서는 중급 과정을 거쳐야 하는데, 생성형 AI가 그 부분을 대체하고 거의 모든 콘텐츠 시장에서 그 역할을 하는 시기가 온다면 과연 가장 창조적인 역할을 해야 하는 최상급 인력이 나올 수 있을까? 아니면 그 업무를 대체하는 AGI가 나올 것인가? 그 때가 오면 과연 사람은 무슨 일을 하게 될까? 인류 역사를 보면 결국 인간은 해결책을 찾게 될 것으로 생각하지만, 걱정되는 것도 사실이다.