메타버스는 형이상학이다

메타버스는 형이상학이다

메타버스는 형이상학이다
08/18/2021
/ 박평종

메타버스가 초미의 관심사다. 신입사원 오리엔테이션에서부터 대학 입학식에 이르기까지, 가수들의 콘서트와 팬 사인회도 메타버스 플랫폼을 통해 진행되니 이제 메타버스는 더 이상 ‘가상세계’가 아니라 일상, 말하자면 ‘현실세계’와 교집합을 만들어내고 있다. 메타버스, 문자 그대로 번역하면 ‘초월적 세계’를 뜻한다. 현실에서 벗어나고자 하는 욕망의 산물이라고나 할까. 그런 점에서 메타버스가 어디까지 갈지 쉽사리 예측할 수 없다. 메타버스가 주목받게 된 직접적인 이유 중의 하나는 미증유의 팬데믹이 야기한 비대면의 필요성 때문이지만 ‘초월적 세계’를 꿈꾸어 왔던 욕망이 바탕에 깔려있다고 할 수 있다. 실상 메타버스는 디지털 기술의 등장과 더불어 화두로 급부상했던 소위 ‘가상현실’의 다른 이름이기도 하다. 디지털 기술의 초기 단계에서 이 ‘가상현실’은 실험적 의미밖에 가질 수 없었다. 그런데 이제 디지털 기술이 고도화되고 각종 융합기술이 발전하면서 메타버스는 새로운 국면에 접어들었다. 다양한 인터넷 플랫폼이 생겨났고 정보를 실시간으로 전송할 수 있는 전송, 통신기술이 이를 떠받치고 있다. 빅데이터 처리와 AI 기술도 이 ‘가상세계’를 정교하게 구축하는 데 필수적이다. 말하자면 메타버스는 ‘신기술’은 아니지만 최근에 와서 비로소 상용화가 가능해진 셈이다.

왜 메타버스에 의지하려 할까? 현실세계의 물리적 제약에 구속받지 않기 때문이다. 내가 ‘몸소’ 콘서트장에 가지 않아도 나의 대리인(아바타)이 출석하여 춤도 추고 환호를 보낼 수 있다. ‘현실효과’가 있다는 점이 중요하다. 가상현실에 관한 실험미술 작업에서도 관건은 이 ‘현실효과’를 극대화시키는 데 있었다. 게임과 영화는 그런 점에서 메타버스의 선구다. 가상현실을 다룬 수많은 SF 고전영화들은 가상과 현실의 경계를 꽤나 ‘과학적으로’ 다룬 바 있다. 예컨대 <토탈리콜>에서 ‘실재’는 뇌가 경험하는 것 이상도 이하도 아니다. <인셉션>에서도 ‘주입된’ 기억이 사람의 사고를 결정한다. 광유전학(Optogenetics) 분야에서는 이미 오래 전에 광섬유로 동물의 뇌를 자극하여 인위적으로 기억을 조작하는 데 성공한 바 있다. 대 전제는 인간이 경험하는 현실은 ‘물리적 세계’와 상관없이 뇌가 수용하는 정보에 따라 결정된다는 것이다. 물론 다음과 같이 말할 수도 있다. 사람이 인지하지 않더라도 ‘물리적 세계’는 인간의 의식 바깥에 있다고. 그러나 적어도 인지하지 못한 세계는 ‘인간의 세계’라 할 수 없다. 안드로메다 은하계에 다른 존재가 있다고 말하는 것과 무슨 차이가 있겠나.

어쨌든 메타버스가 현실세계, 요컨대 물리적 세계를 초월한다면 메타 피지카(Meta-physica)의 영역에 속한다. 피지카, 존재하는 모든 것에 대한 이치를 다룬다. 그렇다면 피지카를 초월하는 메타 피지카는 존재를 넘어서는 것을 다룬다는 뜻이다. 그것이 이른바 아리스토텔레스의 형이상학이다. 그리 보면 메타버스는 벌써 형이상학에 속한다. 비물질성이 핵심이다. 본래 피지카의 탐구대상은 ‘있는 것’, 말하자면 물질과 형상으로 구성된 것이었다. 그런데 물질이 아니어도 존재하는 것이 있다. 판타스마타나 시물라크룸이 그 예다. 이미지도 그렇다. 메타버스 플랫폼은 주로 이미지와 소리 등 물질성이 없는 정보들로 구성된 ‘비물질적 세계’다. 이 ‘비물질의 세계’에는 한계가 없어 어디까지 확장될지 가늠할 수 없다. 아날로그의 세계에서 정보는 물질과 한 몸이었으나 디지털의 세계에서 사정은 다르다. 가상화폐도 같은 맥락에 속한다. 금속이나 종이와 같은 물질이 아니어도 화폐가치를 ‘정보’로 저장할 수 있다는 것이다. 물질의 시대가 몰락중이라는 뜻일까. 메타버스가 어디까지 진화할지 지켜봐야겠지만 당장의 관건은 이 ‘비물질의 세계’를 구축하는 기술력과 자본에 있다. 그러나 결국은 그 세계가 제공하는 ‘정보’가 중요하다. 메타버스는 피지카가 아니라 메타피지카의 영역이므로.

박평종 (중앙대학교 인문콘텐츠연구소 HK연구교수)
미처 말하지 못한 것, 차마 말할 수 없는 것

미처 말하지 못한 것, 차마 말할 수 없는 것

미처 말하지 못한 것, 차마 말할 수 없는 것
06/24/2021
/ 박평종

비대면의 일상화로 메타버스에 대한 관심이 높아지면서 소위 ‘가상인간’의 활동 폭도 늘고 있다. LG전자가 AI 기술을 통해 구현한 ‘김래아’나 삼성전자의 ‘샘(Sam)’이 대표적인 예다. 래아는 LG전자의 홍보 모델로 시작하여 인스타그램에 자신의 근황을 알리는 등 SNS 활동을 활발히 펼치면서 주목받은 바 있다. 샘은 삼성전자의 교육 트레이너로 활동하면서 국외에서 눈길을 끌었다. 이 ‘가상인간’의 뿌리는 이른바 ‘지능형 비서’라 불리는 AI다. 애플 시리가 그 예다. 시리는 목소리로만 소통하나 래아나 샘의 경우에는 ‘형상’이 추가됐다. 비록 그 형상은 ‘가상 이미지’로 메타버스에서나 존재하지만 말이다. 후일 로봇기술과 결합하면 신체도 갖게 되므로 이 ‘지능형 비서’는 진짜 인간을 향해 꾸준히 진화하고 있는 셈이다. 좌우간 래아는 SNS 활동을 통해 실제로 인간과 소통하니 메타버스의 세계에서는 인간과 다를 바 없다.

래아의 활동은 아마도 LG전자의 홍보팀에서 ‘관리’를 하지 않을까 싶다. 말하자면 래아 스스로 ‘직접’ 글과 사진을 올리지는 못할 것이라는 뜻이다. 그럼에도 이 AI의 ‘지향점’은 분명하다. 인간의 사고를 모방한다는 것인데 여기에는 데이터가 필수조건이다. 현재를 데이터의 시대라 부르는 이유다. 우리가 얘기한 모든 것이 알고리즘의 학습 데이터가 되어 부메랑으로 되돌아오는 시대다. ‘이루다’의 사례에서 보았듯 카톡에서 별 뜻 없이 일상적으로 주고받았던 문자가 AI의 세계관을 형성하지 않았던가. 이런 구체적 예를 들지 않더라도 스몰 데이터가 쌓여 빅데이터가 되고, 다시 그것이 수퍼 울트라 데이터로 활용되는 경우는 일상에 널려있다. 플로리디(L. Floridi)는 우리가 제타 바이트를 처음 경험한 세대라고 규정하며 데이터가 기하급수적으로 늘어나는 현상을 지적한 바 있다.

데이터, 사람들이 보고 듣고 말하고 쓴 모든 감각적 경험을 숫자 기호로 변환시켜 저장한 정보를 뜻한다. 기록매체가 없던 시대의 데이터는 별것 없었다. 글로 남기거나 그림으로 그려야 했다. 말하자면 손으로 끄적거려야 했다. 그런데 19세기에 탄생한 각종 기록매체와 더불어 데이터의 양이 폭발적으로 늘기 시작했다. 예컨대 키틀러가 기록시스템 1900으로 분류한 축음기, 타자기, 영화는 ‘기계적인’ 방식으로 데이터를 늘려나갔다. 기계가 데이터를 저장하니 지치지 않고 빠른 속도로 정보를 기록할 수 있었다. 맥루한의 소위 ‘구텐베르그 은하계’에서 생산된 데이터와는 양적으로 비교할 수 없을 정도다. 디지털 매체와 컴퓨터, 소포트웨어로 작동하는 다양한 뉴미디어의 시대로 접어들면서 그 양은 훨씬 늘었다. 심지어 SNS에서 오가는 욕지거리도 데이터가 되는 시대다. 그래서 AI의 편향도 생겨나게 됐다.

어쨌든 이 데이터는 AI 프로젝트에서 필수적인 조건으로 작용한다. 기계가 인간의 데이터를 학습해야 하니까. 그런데 데이터란 컴퓨터가 이해할 수 있는 이진법 숫자를 가리킨다. 말하자면 인간이 ‘이미’ 말한(쓴, 그린, 사진으로 찍은) 것을 숫자로 변환시킨 정보를 뜻한다. 요컨대 ‘발화된’ 것만이 데이터다. 마음속에 담아놓고 얘기하지 않은 것은 데이터가 아니다. 머릿속에 구상해 놓고 표현하지 않은 것은 데이터가 될 수 없다. 따라서 당연한 얘기지만 AI는 인간이 말한 것만을 학습한다. AI 프로젝트는 기계가 인간의 사고를 모방할 수 있도록, 그럴 수 있다는 전제 하에서 출발했다. 그렇다면 AI는 인간의 사고 ‘전체’를 모방할 수 있어야 한다. 그런데 사람이 ‘발화’한 것만이 사고의 전부는 아니다. 오히려 인간에겐 말한 것보다 말하지 못한 것이 더 많다. 생각하는 모든 것을 말할 수 있다면 얼마나 좋겠나. 미처 말하지 못한 것도 있고, 차마 말할 수 없는 것도 있는 법이다. 당연히 해서는 안 될 말도 있으며, 거짓으로 한 말도 있다. 그러고 보면 실제 말한 것보다 말하지 않은 것이 훨씬 많은 셈이다. 이 ‘말하지 않은 것’ 모두가 인간의 ‘사고’에 포함된다. 결국 ‘사고’는 ‘말’보다 커서 빙산의 아랫부분과도 같다.

플로베르의 <감정교육>에서 프레데릭은 그토록 사랑했던 아르누 부인에게 사랑한다는 얘기를 ‘결국’ 하지 못한 채 영원한 이별을 선언한다. 차마 말할 수 없었던 것이다. 요컨대 말하기는 쉽지만 말을 삼키기란 어렵다. 하여 그 ‘묵언’에는 대단히 복잡한 생각들이 깔려있다. 이 경우 플로베르의 소설 ‘데이터’를 학습한 AI가 그 ‘말하지 못한’ 생각을 어떻게 이해할 수 있을까. 말하지 못한 생각은 데이터가 아니기에. ‘지능형 비서’를 비롯하여 인플루언서로 활동하는 래아에게 이 ‘데이터가 되지 못한 사고’는 풀지 못할 숙제로 남게 되지 않을까 싶다.

박평종 (중앙대학교 인문콘텐츠연구소 연구교수)
사진 찍힌 적이 없는 자들의 사진

사진 찍힌 적이 없는 자들의 사진

사진 찍힌 적이 없는 자들의 사진
06/02/2021
/ 박평종

아우구스투스 황제, 다니엘 보샤트

예수, 바스 우테르비크

인공지능 기반 이미지 제작 플랫폼들이 늘고 있다. 그 중 하나가 아트브리더(Artbreeder)로, 사용자가 사진을 업로드하고 원하는 조건을 선택하면 그에 부합하는 ‘맞춤형’ 이미지를 무작위로 제공한다. 여기에 사용된 핵심 기술은 StyleGAN과 BigGAN이다. StyleGAN은 이미지 합성을 통제하기 위해 학습 과정에서 각 레이어마다 해당 이미지의 스타일을 조정할 수 있도록 설계된 생성모델이다. 예컨대 거친 해상도 단계에서는 성별이나 포즈 등을, 중간 해상도 단계에서는 얼굴의 부분적인 특징이나 헤어스타일을, 미세 해상도 단계에서는 눈동자 색깔이나 머리카락 색깔, 그 밖의 미시적 특징을 조절한다. 이미지는 스타일의 조합이라는 전제가 깔려있는 셈이다. StyleGAN 기반 이미지 생성 알고리즘을 활용한 대표적인 플랫폼은 앤비디아가 개발한 “Generated Photos”로 2021년 현재 260만 장 이상의 인물사진을 보유하고 있으며, 계속 늘어나는 추세다. BigGAN은 생성 이미지의 ‘사실성’을 높이기 위해 2019년에 개발된 모델인데, GAN의 성능을 측정하기 위해 고안된 지표 IS(Inception Score)와 FID(Fréchet Inception Distance)에서 가장 높은 점수를 받은 바 있다.

아트브리더는 접근성도 좋고 이미지의 품질과 다양성 측면에서도 뛰어나 활용 가능성이 높다. 이 플랫폼을 예술 창작의 수단으로 활용하는 작가들도 늘고 있다. 캐나다의 다니엘 보샤트(Daniel Voschart)는 <로마 황제 프로젝트(Roman Emperors Project)>에 이 플랫폼을 적극 활용했다. 보샤트는 우선 54명의 로마 황제들에 대한 역사적 자료를 수집하고 그들이 살아생전에 제작됐던 흉상 조각들을 기계학습 데이터(사진)로 변환시켰다. 대략 800점 정도의 이미지가 사용됐다. 살아생전의 흉상이 없는 경우 동전에 묘사된 이미지를 사용하기도 했다. 이 이미지를 아트브리더에 업로드하여 생성된 이미지는 ‘거의’ 사진처럼 보인다. 사진이 없었던 시대에 살았던 고대 로마 황제들의 ‘사진’이 나온 셈인데, 보샤트는 이 파일을 프린트로 제작하여 에디션을 부여한 후 작품으로 내놓았다.

람세스 2세와 네페르타리

자유의 여신상

네델란드의 사진작가 바스 우테르비크(Bas Uterwijk)도 아트브리더를 적극 활용한다. <AI Generated Portraits> 시리즈가 그 예로 이 작업은 두 가지로 나뉜다. 첫째는 <친숙한 얼굴(Familiar Faces)>연작으로 반 고흐, 예수, 나폴레옹, 엘리자베스 여왕(1세) 등의 ‘사진’이다. 둘째는 <대체 불가능한 토큰(None Fungible Tokens)>, 제목이 암시하듯 암호 화폐 방식으로 자동 생성된 ‘가상’의 인물사진이다. 두 작업 모두 아트브리더의 GAN 알고리즘이 활용됐다. 예수의 ‘사진’은 유럽 각 성당에 있는 이콘화가 바탕이고, 16세기의 엘리자베스 여왕은 생전에 제작됐던 다수의 초상화가 학습 데이터로 활용됐다. 심지어는 자유의 여신상 조각을 학습시켜 제작한 ‘여신’의 사진도 작품 목록에 들어있다. 고대 이집트 람세스 2세의 왕비였던 네페르타리의 사진, 카이사르의 사진, 킹 알렉산더의 사진도 있으니 참으로 놀라운 일이다.

디지털 기술의 발전으로 사진이 허구와 가상의 영역을 넘나들던 때도 사진에 대한 ‘보편적 통념’은 여전히 확고했다. 요컨대 사진은 카메라 앞에 실제 존재했던 대상만을 찍는다는 것이다. 사진이 지닌 ‘인증’의 힘은 거기서 나온다. 그런데 이제 사진 발명 이전의 인물, 말하자면 한 번도 사진 찍힌 적이 없었던 인물의 사진이 생산되고 있다. ‘고전적인’ 사진 패러다임에 비추어 보면 이 이미지는 사진이라 할 수 없다. 그냥 사진처럼 보이는 이미지일 따름이다. 그렇다면 이 ‘생성 이미지’를 무어라 불러야 할까? ‘사진 같은 이미지’이기는 하다. 예컨대 보샤트의 <로마 황제 프로젝트>의 공식명칭에는 앞에 ‘Photoreal’이라는 형용사가 붙어있다. 게다가 수많은 GAN의 변형 알고리즘들은 대체로 이 ‘포토리얼리스틱’한 효과를 극대화하기 위해 다양한 기술을 적용한다. 사진에 대한 ‘고전적인’ 개념은 어쩌면 19-20세기의 유산일지도 모르겠다. 실재를 시간과 더불어 통째로 기록할 수 있는 기술이 그 시대에는 ‘경이’로운 일이었겠지만 이제 그 정도는 별로 놀랍지 않다. 어쨌든 중요한 문제는 알고리즘이 생산한 이미지가 사진이냐 아니냐가 아니라 얼마나 사진처럼 보이느냐에 있다. 물론 사진이냐 아니냐는 중요하다. 지금도 여전히 그에 따라 진실이 판가름 나니까. 그런데 그 차원을 벗어나면 그런 규정은 아무 의미가 없다. 사진의 개념이 생각보다 빨리 바뀔지도 모르겠다.

박평종 (중앙대학교 인문콘텐츠연구소 연구교수)

보고 싶(지 않)은 얼굴

보고 싶(지 않)은 얼굴

보고 싶(지 않)은 얼굴
05/12/2021
/ 박평종

낸시 버슨(Nancy Burson)의 1986년 작 <나이 든 마릴린 먼로(Aged Marylinn Monroe)>, 1962년에 작고한 할리우드 여배우의 ‘늙은’ 얼굴을 합성한 작품이다. 1926년에 태어났으니 36세에 세상을 떠났고 86년이면 환갑의 나이다. 이 ‘늙은’ 얼굴이 얼마나 진짜에 가까운지는 입증할 수 없다. 만약 살아있었더라도 병에 걸리거나 보톡스를 많이 맞거나 했다면 버슨의 작품과는 전혀 다른 얼굴일 수 있다. 그래도 그 이미지는 영락없는 먼로다. 나이 들어 사진 찍히면 보통 흉측하다고들 한다. 그래서 좀처럼 카메라 앞에 서려 하지 않는다. 젊을 때 많이 찍어놓을걸, 하는 생각이 들기도 한다. 그런 점에서 보면 마릴린 먼로는 자기 의지와 상관없이 버슨에게 당한 셈이다. 누구였던가, 프랑스의 어느 여배우는 나이 든 이후 한 번도 카메라 앞에 나타나지 않았다. 대중의 환상 속에 남고 싶었던 것이다. 어쨌든 20세기 대중문화의 아이콘을 잊지 못하는 이들은 ‘나이 든’ 먼로의 얼굴이 보고 싶었을 것이다. 애정이 깊어서인지, 호기심 탓인지 알 수 없으나 이 ‘보고 싶은 얼굴’의 다른 버전도 많이 나와 있다.

컴퓨터의 사진 합성 기술이 조악했던 시절 버슨의 작품은 신선했다. 그런데 이제 이 ‘나이 든 얼굴’의 합성은 너무도 간단한 기술이 됐고, 품질도 좋아졌다. GAN 알고리즘 덕이다. 2017년에 발표된 FA GAN(Face Aging GAN), 이걸 개량한 PFA GAN(Progressive Face Aging GAN) 등은 한 장의 얼굴사진으로부터 나이대별로 노화하는 얼굴 이미지를 합성해 내는 알고리즘이다. 게다가 새로 생성된 이미지는 원래 인물의 정체성(identity)을 유지한다. 방법은 CGAN(Conditional GAN)의 활용에 있다. 본래 GAN은 생성자와 판별자의 대립구도를 통해 원본과 유사한 가짜 데이터를 산출하는 데 특화된 생성모델이다. 이 때 생성자는 데이터를 무작위로 산출하기 때문에 사용자가 원하는 방향의 이미지를 얻어낼 수 없다. 예컨대 마릴린 먼로의 사진에서 나이 든 오드리 햅번이 나올 수도 있다는 뜻이다. 따라서 이미지의 방향을 통제하기 위해 잠재변수에 조건을 부여한다. 여기서 잠재변수는 원본과 유사한 가짜 데이터를 얻기 위해 픽셀 값의 편차를 만들어내는 요소다. 그리고 FA GAN에서 이 조건은 인물의 정체성을 유지하는 것이 목표다.

이 알고리즘의 개발자들은 인물 고유의 정체성을 유지하는 ‘미래의 얼굴’이 대단히 중요한 과업이라고 주장한다. 연령을 초월한 인물 식별에 효과적이기 때문이다. 예컨대 한참 세월이 흐른 뒤에도 실종된 아이를 찾는 데 도움을 줄 수 있고, 한 인물이 미래에 어떤 모습을 하게 될지 예견하는 데도 효과적이라는 것이다. 그 주장처럼 이 알고리즘의 효용가치는 높다. 대부분의 과학기술이 그렇듯이 말이다. 그러나 그런 긍정성과는 별개로 ‘나이 든’ 모습을 미리 본다는 것은 서글픈 일이기도 하다. 굳이 미리 보지 않아도 언젠가는 보게 될 테니까. 가능하면 시간을 유예시키고 싶은 것이 인간의 보편적인 욕망인데 일부러 미래를 앞당겨 보려 하는 짓궂은 짓을 할 필요가 있나 싶기도 하다. 어릴 때는 시간이 빨리 흘러 어른이 되고 싶고, 나이 들면 시간이 더디 흘러 지금에 멈추고 싶어 하는 것이 사람 마음이다. 아이들이 성장하는 모습에서 부모는 기쁨을 느끼지만 반대로 부모의 얼굴에 주름이 깊게 패여 가는 모습에 사람은 마음 아파하지 않던가. 젊은 시절에 찍었던 기념사진을 보면 내게도 저런 모습이 있었나 싶을 때가 있고, 가까운 지인들의 모습에서도 마찬가지다. 별로 보고 싶지 않은 ‘늙은’ 얼굴을 일부러 ‘만들어서’ 볼 이유가 없다는 얘기다. 그래도 그 기술이 유익하게 쓰일 수 있다면 별 수 없지만 말이다.

다른 한편으로 이 ‘미래의’ 얼굴은 ‘전통적인’ 관념에 비추어 볼 때 사진이라 할 수 없다. 그 관념에 따르면 카메라 앞에 ‘존재하는’ 대상을 찍어낸 이미지만이 사진이기 때문이다. 실상 과거는 ‘이미’ 없고, 미래는 ‘아직’ 없다. 늘 ‘지금, 여기’만, 말하자면 현재만 있다. 그래서 사진은 과거도, 미래도 찍지 못한다. 그런데 놀랍게도 모든 사진은 항상 ‘이미’ 없는 과거만 보여준다. 그리고 이제 ‘아직’ 없는 미래를 건드리기 시작했다. 놀라운 일이다.

박평종 (중앙대학교 인문콘텐츠연구소 연구교수)
머글의 마법이 시작됐다!

머글의 마법이 시작됐다!

머글의 마법이 시작됐다!
04/21/2021
/ 박평종

해리 포터의 마법사들이 구사하는 ‘초자연적인’ 마법과 그들이 ‘머글’이라 부르는 평범한 인간들의 과학기술에는 큰 차이가 있다. 마법이 자연의 질서를 지배하는 물리적 법칙을 뛰어넘는 데 비해 과학은 그 법칙을 존중하고 충실히 따른다. 그런 머글의 눈에 마법은 그저 놀라울 따름이다. 반대로 마법사의 눈에도 머글의 과학기술은 신통방통한 데가 있다. 물론 머글을 경멸하는 ‘죽음을 먹는 자들’은 그 기술을 보잘 것 없는 것으로 치부하지만 말이다. 하지만 과학의 관점에서 보면 오히려 마법사의 세계가 머글의 세계에 비해 열등한 측면이 있다. 휴대폰과 인터넷으로 소통하는 머글과 비교하자면 부엉이를 통해 편지를 전달하는 마법사들의 통신수단은 비록 낭만적이지만 얼마나 불편한가. 또한 비행기를 조종하여 수백 명씩 사람을 실어 나르는 머글의 기술에 비해 빗자루를 타고 날아다니는 마법사들의 교통수단은 얼마나 열악한가. 뭐 그래도 텔레포트로 순간 이동을 하는 마법의 세계는 경이로운 구석이 있지만 말이다.

마법세계가 보여주는 또 다른 놀라움 중의 하나가 살아있는 사진이다. 해리 포터의 엄마는 죽었지만 사진 속에서는 항상 살아 움직이며 해리의 곁을 지킨다. 시리우스 블랙의 아즈카반 탈출 소식을 전하는 ‘예언자 일보’의 사진도 그렇다. 그것이 마법의 신비한 힘이다. 그런데 마법을 모르는 머글이 살아 움직이는 사진을 만들어내기 시작했다. 마이 헤리티지(My Heritage)에서 개발한 딥 노스탤지어(Deep Nostalgia)가 그것이다. 마이 헤리티지는 이스라엘에서 운영하는 인터넷 플랫폼으로 가족의 역사를 찾아 수집, 보존하여 확장시키는 것을 목표로 출발했다. 사진을 비롯하여 DNA 검사 키트까지 동원하여 세계 각지에 흩어져 있는 ‘먼 친척’이나 인척 관계의 혈통을 찾아내겠다는 것이다. 딥 노스탤지어는 마이 헤리티지가 최근 개발한 알고리즘으로 사진에 움직임을 부여하는 서비스를 제공한다. 예컨대 작고한 가족의 기념사진에 생생한 움직임을 부여함으로써 살아생전의 모습을 경험할 수 있는 길을 열어주었다.

여기에 사용된 기술은 복합적이다. 기존의 포토샵 기술과 각종 이미지 처리 앱, 딥러닝 기반의 인공지능 기술을 종합적으로 활용하여 ‘머글의 마법’을 완성했다. 그 기술들을 열거하면 다음과 같다. 우선 퇴색하거나 희미해진 사진을 복원하기 위한 언페이드(Unfade) 스캐너다. 나아가 각종 사진 복원 소프트웨어를 통해 낡고 훼손된 사진이나 흑백사진을 컬러로 복원하는 기술을 추가했다. 다음은 컴퓨터 비전 분야에서 가장 주목받는 생성모델인 GAN의 변형 알고리즘이다. 그 중 하나는 MoCoGAN으로 비디오 합성을 위해 특정한 동작과 이미지를 추출하여 학습시키는 생성 모델이다. 또 다른 핵심 기술로는 여러 장의 사진으로부터 말하는 사람의 연속 이미지를 합성해 내는 Few-Shot Learning 알고리즘이 있다. ‘살아있는 초상’을 생성해 내는 GAN 알고리즘의 일종이다.

딥 노스탤지어는 가족의 기념사진뿐만 아니라 이미 사망한 유명 인사의 생생한 얼굴 표정까지 합성하여 살아 움직이는 사람처럼 표현할 수 있는 ‘첨단 기술’이다. 마법의 세계에서나 상상할 수 있는 ‘죽은 사람’의 ‘살아 있는’ 모습을 볼 수 있게 된 것이다. 물론 이 ‘머글의 마법’은 가짜, 요컨대 시물라크룸이다. 그러나 고인이 된 어머니가 눈앞에서 미소 짓거나 불행히도 먼저 세상을 떠난 연인이 윙크를 보내는 모습을 볼 수 있다는 것은 가슴 뭉클한 경험이 될 것이다. 마법을 모르는 머글이 과학기술을 통해 마법을 실현시켰다고나 할까. 원리를 모르면 마법이고 알면 과학이다. 자력과 중력의 원리를 몰랐던 고대인들에게 자석은 마법이었으나 그 힘의 근원을 알고 있는 현대인에게 쇠붙이가 자석에 달라붙는 현상은 그저 기초 상식일 따름이니까.

다른 한편으로 딥 노스탤지어가 지닌 긍정성에도 불구하고 그 기술의 악용을 우려하는 목소리도 높다. 소위 딥 페이크의 고도화에 따른 각종 오남용과 위험성 때문이다. 당연한 우려다. 그러나 기술은 본래 중립적이고 쓰는 자의 윤리가 문제다. 경이로운 마법을 덤블도어는 선하게 사용하지만 ‘이름을 말해서는 안 되는 자’는 악하게 쓰지 않던가. 말하자면 마법이 위험한 것이 아니라 위험하게 쓰는 자가 위험하다는 뜻이다. 그 ‘위험한 자’ 때문에 마법사들이 마법을 포기하지 않듯이 ‘위험한 머글’ 때문에 머글 전체가 과학기술을 버릴 필요는 없다. 머글에게 과학기술은 마법과 맞닿아 있기 때문이다.

박평종 (중앙대학교 인문콘텐츠연구소 연구교수)
청출어람 청어람

청출어람 청어람

청출어람 청어람
03/31/2021
/ 박평종

이미지 생성 알고리즘이 빠르게 진화하고 있다. 가장 주목을 끄는 모델은 생성적 적대신경망(Generative Adversarial Network, 이하 GAN)으로 2014년에 처음 발표된 후 놀라운 성장을 거듭해 왔다. GAN의 원리를 적용하여 이미지 생성에 활용한 알고리즘은 매우 많고 분야도 다양한데, 그 중 하나가 TPGAN(Two-Pathway GAN)이다. 이 알고리즘은 측면 사진에서 정면 사진을 정확히 합성해 내는 ‘신기’에 가까운 솜씨를 보여주었다. 이것이 어떻게 가능할까?

대부분의 인공지능이 그렇듯이 이 알고리즘도 사람의 사고 과정을 모방한다. 사람이 측면 얼굴에서 정면 얼굴을 유추해 내는 과정을 응용하는 것이다. 사람은 우선 관찰을 통해 측면 정보를 탐색한다. 당연히 별 소득은 없다. 하지만 불확실한 정보를 추론의 재료로 삼아 얼굴에 대한 사전 지식과 비교한다. 정면 얼굴에 대한 지식은 예컨대 두 눈은 평행상태로 놓여있고 코는 수직으로 얼굴의 중앙에 위치하며, 입은 코의 아래쪽에 자리 잡고 있다는 등이다. 이를 바탕으로 정면 얼굴에 대한 전반적인 구조를 추정하는 것이 가능하다. 다음에는 정면의 디테일을 추정하여 얼굴의 전반적인 형태를 산정한다. 옆에서 본 눈이 둥근 형태인지 길게 늘어진 형태인지, 코가 뾰족한지 뭉툭한지, 코와 입의 간격은 어느 정도인지 등 구체적인 세부를 추정하는 것이다. 물론 사람의 기억은 부정확하여 얼굴의 모든 형태를 정확히 상상을 통해 얻어내기란 쉽지 않다. 그래도 어느 정도 근사치에 도달할 수는 있다. 목격자의 기억에 의존하여 몽타주를 그럴싸하게 그려내는 경우처럼 말이다.

어쨌든 TPGAN도 이런 프로세스를 따른다. 전체경로(Global Pathway)라 불리는 첫 단계에서는 얼굴의 전체 구조를 추정하고, 두 번째 단계인 국부경로(Local Pathway)에서는 얼굴의 부분적인 디테일이 전체 구조에 부합하도록 합성을 진행한다. 이 둘을 통합시켜 최종 결과물을 얻어내는데 여기서 GAN의 기본 구조인 생성자(Generator)와 판별자(Discriminator)의 역할이 중요하다. 생성자는 위의 두 경로에서 추출한 데이터를 통합하여 정면 얼굴의 픽셀값을 계산한다. 판별자는 생성자가 산출한 데이터가 얼마나 실재와 가까운지 비교를 통해 식별을 진행한다. 당연히 초기 단계에서 측면사진과 정면사진은 확연히 다르다. 그런데 이 과정이 ‘무수히’ 반복되면 사정은 달라진다. 예컨대 생성자가 ‘처음에’ 제시한 정면사진은 판별자의 눈에 완전히 다른 사람처럼 보일 것이다. 그래서 “다시 만들어 와”라고 돌려보낸다. 생성자는 종전의 실수를 만회하기 위해 좀 더 그럴듯한 정면사진을 만들어온다. 이 과정이 무수히 반복되면서 생성자가 제안하는 정면사진은 실제 얼굴에 가까운 근사치로 수렴한다. TPGAN의 개발자들은 이 알고리즘이 측면사진으로부터 인물의 동일성(Identity)을 유지하는 정면사진을 생성해 냄으로써 합성을 통해 안면인식의 가능성을 입증했다고 자평했다. 그렇다면 활용범위도 넓다. CCTV는 증명사진처럼 ‘정확히’ 인물의 정면을 포착하는 경우가 드물어 인물 식별에 애를 먹는 경우가 많다. 그런 점에서 TPGAN은 예컨대 범죄용의자의 인물 식별에 효과적일 수 있다.

GAN의 원리를 처음 고안한 이안 굿펠로우는 2014년의 논문에서 생성자와 판별자의 관계를 위조지폐범과 경찰의 관계로 설명했는데, 2016년 신경정보처리시스템학회(NIPS)에서 발표한 GAN에 관한 튜토리얼에서는 학생과 교사의 관계에 가깝다고 언급한 바 있다. 말하자면 학생(생성자)이 제출한 답안(생성 데이터)을 교사(판별자)가 검사하는 과정을 통해 학생의 능력이 향상된다는 것이다. 실상 이 ‘검사 과정’은 지겹게 되풀이되므로 사람에게는 고역일 수밖에 없다. 그런데 기계는 지치지도 않고 자존심 상하는 일도 없으며, 정답이 나올 때까지 같은 행위를 반복할 수 있다. 고생 끝에 낙이 온다 했던가. 판별자로부터 무수히 ‘fail’을 맞아가며 유급을 거듭하다 결국 ‘pass’를 따내고야 마는 생성자의 노력은 사람의 눈에 가상해 보이기도 한다. 뭐 어차피 인간이 시킨 일이긴 하지만. 어쨌든 사람의 사고를 모방했지만 사람의 능력을 넘어서는 이 알고리즘은 한편으로 대견한 측면이 있다. 청출어람 청어람이라고나 할까.

박평종 (중앙대학교 인문콘텐츠연구소 연구교수)