인공지능이 창작한 단편 영화, 존 아웃 (2018)에 대하여

한양대 연극영화과 박사과정에 재학중인 이승엽씨의 논문 “현상으로서의 인공지능 영화 창작에 대한 고찰”을 통해 2018년에 만들어진 <존 아웃 zone out>이라는 단편 작품이 있다는 것을 알게되었다. 이 영화는 벤저민이라는 인공지능 시스템이 100% 연출과 각본을 맡았다고 주장되고 있는 작품인데, 이 글에서는 위 논문이 가진 문제에 대한 비평을 중심으로 이 영화에 대해서 간단히 살펴보도록 하겠다.

먼저 대상이 된 위 논문의 원문은 아래 링크에서 다운이 가능하다:
논문 다운 링크

벤저민의 기술적 사항

벤저민(Benjamin)은 몇편의 단편영화 창작과 수상 경험이 있는 오스카 샤프란 이름의 영화감독과 AI예술가로 활동중인 로스 굿윈에 의해 만들어진 인공지능 창작 시스템이다. 조사해 보니, 로스 굿윈은 MIT를 졸업하고 구글에서 근무한 이력이 있는데, 아마도 실질적으로는 이 사람에 의해 벤저민이 디자인된 것으로 보인다.

구체적으로 벤저민의 기술사항을 살펴보면, 먼저 LSTM알고리즘으로 자연어처리를 하여 대사를 생성하고, 인간 스테프들에 의하여 미리 준비된 퍼블릭 도메인 영화 자료들 중에 대사에 맞는 적절한 장면을 벤저민이 직접 고르게 되는데, 이를 위해 CNN알고리즘이 사용되었다. 음성은 기계 합성음으로 생성하였고, 일종의 딥페이크 기술로 미리 촬영한 실제 인간 배우의 입모양을 영상의 입부분과 합성한다.

여기서 한가지 문제가 되는 부분이, 영상의 장면을 벤저민이 선택하는 과정에 대한 매커니즘이 명확하지 않다는 점이다. 제작자들은 단순히 CNN알고리즘을 사용했다고만 말하고 있는데, 실제 결과물을 보면 생각보다는 매끄러운 편이다. 그리고 제작자들은 인터뷰에서 “영상 선택과정에서 최대한 벤저민의 의견에 따랐다”는 늬앙스로 말하였는데, 이는 반대로 영상 선택 과정에 인간이 개입될 가능성이 있었다는 말이 된다. 내 생각에는 인간이 영상의 선택과 편집과정에 약간의 개입을 했다던지, 가이드를 주었다던지, 혹은 준비된 퍼블릭 도메인 영화 자료들이 “영화 한편 전체”가 아니고, 인간 스테프들이 미리 그루핑을 하여 “영상 묶음” 단위로 준비하고 이들 묶음중에 벤저민이 선택을 하는 단순한 매커니즘이 아니었을까 하는 의심이 든다. 만약 내 추측이 사실이라면 편집과정에 인간의 개입이 많은 것이 되어 100% 인공지능 창작 영화라는 타이틀은 약간 무색해지는 셈이 된다. 어쨌든 정확한 자료가 없으므로 이 문제는 의심수준으로 남겨둔다.

벤저민 시스템이 설계된 것은 2018년 이전으로, 현 시점에서는 이전 세대의 기술을 사용하고 있는 셈이 되어 그리 인상적인 면은 없다. 2023년 현재는 transformer알고리즘 기반의 LLM모델을 멀티모달 방식으로 학습시켜 본 작품보다 훨씬 우수한 품질로 인공지능 영상 제작이 가능하게 되었다.

본 작품의 가치

사실 이 작품이 어떤 특별한 아이디어 혹은 기술을 기반으로 하고 있는 것은 아니다. 작품이 만들어질 시기에 이미 많은 이들이 접근 가능했던 기술이고 쉽게 떠올릴수 있는 아이디어 수준을 벗어나지는 않는다. 그럼에도 AI예술과 더 나아가 예술의 본질에 대해 생각해볼 기회를 준다는 점에서 본 작품을 검토해볼만한 가치는 있다.

해당 논문에 대한 비평

이제 내가 본 영화를 알게 된 계기가 되었던 이승엽씨의 논문에 대해 살펴보자. 사실 이 논문은 몇몇 오류가 있어 그리 좋은 논문이라고 볼수는 없다. 그러나 현재 영화 AI에 대해 논하고 있는 문헌 자체가 국내에는 거의 없는 상황이므로 한번쯤 살펴볼만한 가치는 있는 논문이다.

이 논문은 크게 인공지능 벤저민의 기술적 부분을 설명하고, 이어서 현상학적 논의를 짧게 하는 식으로 구성되었다. 여기서 기술적 부분은 인공지능 기술에 대한 저자의 이해 부족으로 인하여 사전적 지식을 본인의 상상을 곁들여 늘어놓은 듯한 설명들로 채워진 어색한 부분들이 상당수 발견된다. 몇가지 예를 들면, 저자는 코딩을 위한 단순 라이브러리에 불과한 “탠서플로우”를 어떤 가시적 도구인것처럼 상상하는 듯 보이고, 자연어처리 기술을 위해 기계어와 자연어의 관계에 대하여 서술한 부분도 다소 어색한 부분이 있다. 레브 마노비치의 AI미학에 대한 서술에서 “질적차이”라는 부분도 말그대로 “질적인 차이”이지 “품질의 높고 낮음”이 아닌데, 논문의 저자는 이점을 오해하고 있는게 아닌가 싶기도 하다 (단, 이 부분은 내가 레브 마노비치의 글을 읽지 않아서 내 주장에 오류가 있을수도 있다. 나는 논문의 저자가 한, 서술만을 바탕으로 추측한 것이다).

인공지능 vs 인공지능 방법론

현재 “인공지능(AI)”이란 용어는 대중들사이에서 매우 혼란스럽게 사용되고 있고, 이러한 혼란스러움이 인공지능이 갖는 가치에 대해 혼동을 하게 만드는 주범인 것 같은 생각이 든다. 여기서 이 용어에 대해 내 나름대로 명확하게 하고 넘어가겠다. 참고로 이하의 구분은 나의 임의적 방법이고 인공지능 학계에서 널리 통용되는 방식은 아니다. 그러나 나의 방법에 따라도 별 문제는 없을 것이고 인공지능과 관련된 문제를 명확히 할수 있다는 점에서 오히려 더 유리할 것이다.

현재 널리 통용되고 있는 “인공지능”이란 용어는 사실 “인공지능”과 “인공지능 방법론”이 구분없이 혼재되어 사용되고 있는것이다. 따라서 두 상황을 구분해 주어야 한다. 먼저 “인공지능”은 말하는 로봇이나 chatGPT와 같은 “인공적인 인지 시스템”을 말하는 것이다. 쉽게 말해 SF영화등에 나오는 상식적인 인공지능이 바로 여기에 해당된다.

반면, “인공지능 방법론”은 좀더 엄밀하게 말하면 “신경망적 방법론” 혹은 “연결주의적 방법론”을 의미하는데, 대표적인 예로 “딥러닝 기술”이 있다. 이는 어떤 문제해결을 위해 인간의 뇌신경망을 모방한 수학적 함수를 사용하는 것을 의미한다. 뇌신경망을 모방했다고 해서 인간의 자아를 창조하는것은 물론 아니며, 인간의 뇌의 극히 일부 매커니즘을 흉내내는 수준이므로 인간 수준의 지성과는 현격한 차이가 있는 것이다. 쉽게 말해 돌고래의 형상을 모방한 유선형 자동차를 보고 돌고래가 창조되었다고 말하지 않는것과 마찬가지이다.

각각의 상황에 따라 인공지능과 인공지능 방법론은 겹칠수도 있고 어느 하나만 해당될수도 있다. 몇가지 예를 들자면 chatGPT서비스는 “인공지능 방법론”인 LLM기술을 사용하여 구현된 “인공지능”이다. 따라서 양자 모두에 해당된다. 물론 “수학적 함수”에 불과한 인공지능 방법론이 사용되었으므로 chatGPT에게 인간의 자아따위가 있는것은 전혀 아니다.

가게에서 흔히 볼수 있는 자동문 장치는 일종의 인공지능이다. 인간의 인지기관인 시각을 모방하여 사물을 감지하여 문을 자동으로 열기 때문이다. 그러나 여기에는 복잡한 “인공지능 방법론”은 사용되지 않고, 다만 “만약 사물이 감지되면 문을 열어라”식의 “논리학적 방법론”이 사용된 것이다. 이 경우는 “인공지능”에만 해당되는 예가 된다.

논문의 현상학적 논의에 대하여

다시 논문으로 돌아가서, 논문의 저자 역시 위에서 설명한 “용어의 혼동”을 하고 있는 것으로 보인다. 즉, 인공지능과 인공지능 방법론을 명확하게 구분짓지 못하여 결과적으로 벤저민의 가치를 과대평가하고 “벤저민의 자기결정권”등과 같은 논의의 실익이 없는 논점을 길게 다루고 있다.

논문의 후반부를 보면, 저자는 벤저민에게 은근하게 “자아”라는 것을 상상하고, 벤저민이 생산한 결과물에 인간이 이해할수 없는, 인간의 지각을 초월하는 어떤 의미를 발견할수 있다는 것을 내심 기대하고 있다. 그 근거로 저자는 세가지를 드는데, 1)신경망 기술이 가진 블랙박스성(불가해성), 2)바둑 AI 알파고와의 비교, 3)사실상의 신비주의(물론 저자는 나의 이 주장을 부정하겠지만)가 그것이다.

여기서 1)은 어떤 기술의 작동과정을 모른다고해서 그곳에서 갑자기 가치있는 의미가 튀어나오는 것은 당연히 아니라는 점에서 엉뚱한 설명이다. 1)은 단지 신경망 기술이 가진 단점 혹은 하자에 불과한 것이다. 2)는 알파고는 바둑이라는 “정답”이 존재하는 문제를 처리하는 AI라고 반박할수 있다. 즉, 예술과 관련한 벤저민과 알파고는 직접 비교가 어려운 것이다. 3)과 같은 신비주의는 사실상 “무언가를 알수 없으니 그곳에 무언가 대단한 것이 있을것이다”와 다름아니다.

그리고 논문의 저자는 현상학을 동원하여 사람 얼굴의 부자연스러움을 감안할때 본 영화가 재현인가 재생산인가를 지난하게 논하고 있는데, 내가 볼때에는 불필요한 논의로 보인다. 본 영화 작품이 퍼블릭 도메인 영화 장면에 입모양을 합성하는 기술을 사용한 것은, 창작 당시에 단독적인 영상 생성을 할수 있는 기술과 장비가 없었기 때문이지 제작자들이 어떠한 예술적 목적을 가져서가 아니다. 다시 말해 이는 단순한 기술적 한계이므로 논문의 저자처럼 특별히 현상학적 고찰을 할 필요는 없는 부분이다. 저자는 마치 인공지능 기술이 벤저민의 수준에서 멈춰있을것과 같이 본 주제를 길게 논하는데(참고로 이 논문의 작성년도는 영화 공개가 된지 한참후인 2022년이다!), 벤저민이 가진 이 기술적 한계는 현재는 거의 해결된 상태이다.

내가 보는 존 아웃

이제 내가 감상한 본 작품 — 존 아웃 — 에 대한 짧은 감상을 말해보겠다. 벤저민이 생산한 본 영화 자체, 즉 영화 내부에서 어떤 의미를 찾기는 힘들다. 이 작품은 단지 수학적 함수가 출력한 결과값을 미리 준비된 이미지와 소리, 그리고 텍스트와 거칠게 그리고 랜덤하게 — 이 랜덤하게라는 부분은 물론 관찰자 입장에서다 — 연결지은것 뿐이다. 우리 인간의 입장에서 볼때 이 영화가 어떤 의미를 주지는 못하며, 외부세계의 객관적 기준에서도 단순히 전기적 사건의 의미없는 흐름일뿐이다.

이 작품의 의미는 메타적으로만 존재한다고 볼수 있는데, 즉 영화 외부에서 벤저민의 제작자와 벤저민간의 관계에 존재하는 것이다. 제작자는 완전 자율적(autonomous)인 어떤 예술 창작 시스템을 만들고자 했고, 이 의도의 실험적인 구현이라는 의미만이 본 작품에 있을뿐이다. 사실 이같은 자율 창작 시스템은 과거에도 종종 있어왔는데, 주사위를 이용하는 모차르트의 “음악의 주사위 놀이”란 곡도 넓게 보면 여기에 해당된다고 볼수 있을 것이다.

인공지능 기반 예술, 어떻게 연구할 것인가

본 논문이 가진 몇몇 하자들은 주로 인공지능에 대한 기술적 이해의 부족으로 인한것인데, 이것은 해당분야의 전문가의 검수를 받았다면 해결될수 있는 문제로 보인다. 사실 본 논문 수준의 기술적 사항은 컴퓨터공학 학부생 수준 정도로도 충분히 검토할수 있는 것들이다. 이처럼 인공지능 기반 예술은 예술가와 공학자의 학제간 연구가 필요한 분야이다. 앞으로 다양한 배경의 연구자들이 함께 어우러져 이러한 기술 기반 예술의 연구가 활성화되었으면 좋겠다.

나는 인공지능 예술이 우리에게 세가지 실익을 준다고 생각하는데, 첫째는 예술의 본질에 대해 생각해볼수 있는 기회를 준다는 점이다. “인공지능이 만든 작품도 예술인가?”란 질문에 답을 해보다 보면 예술의 본질에 최대한 가까이 접근해갈수 있는 사고실험의 장이 되는 것이다. 둘째는 인공지능을 창작 도구로서 활용할수 있다는 점이다. 이는 앞서 인공지능이란 용어의 정의에서 설명한 “인공지능”을 이용함으로서도, 혹은 “인공지능 방법론”을 이용함으로서도 실현될수 있다. 셋째는 이번 벤저민의 시도와 같이 인공지능 자체가 창작자로 기능하는 완전 자율형 창작 시스템을 구현할수 있다는 것이다. 물론 여기에는 문제가 다시 위 첫째에서 언급한 “예술의 본질”문제로 재귀되겠지만 말이다.

참고자료

아래는 내가 예전에 썼던, 인공지능 영화와 영화 산업의 미래에 대해 아주 쉽게 쓴 글이다.

글 링크 (외부링크)

DAYZART