타자기와 카메라

타자기와 카메라

타자기와 카메라
08/05/2020
/ 박평종

타자수로 군복무를 마친 내게 타자기의 의미는 각별하다. 이등병 때 4벌식으로 타자를 배웠는데, 상병 무렵 부대 전체의 타자기가 2벌식으로 바뀌면서 적응에 애를 먹었다. 2벌식과 4벌식의 차이는 받침과 쌍자음, 이중모음의 처리방식에 있다. 자판 배열은 거의 같지만 받침을 처리할 때 4벌식에서는 새끼손가락으로 시프트키를 누른 상태로 자판을 눌러야 한다. 2벌식의 경우 시프트키를 누르면 잠금장치가 작동하여 손가락을 뗀 상태에서 자판을 누를 수 있고 자판을 누르는 순간 잠금은 자동 해제된다. 이 ‘구조적’ 차이가 몇 가지 다른 차이를 만들어 낸다. 첫째, 4벌식의 받침과 쌍자음은 시프트키를 누르는 새끼손가락의 압력에 따라 위치와 모양에 미세한 차이를 낳는다. 그에 비해 2벌식의 글씨 모양은 한결같다. 둘째, 시프트키의 잠금장치가 걸렸다 해제되는 영점 몇 초 정도의 순간이 타자를 아주 잘 치는 특급 타자수들에게는 다음 자판을 누르는 데 방해가 된다. 물론 그 정도로 타자를 빨리 치는 초일류 타자수는 흔치 않지만, 기계보다 빠른 손은 드물게 존재한다.

타자기가 나오기 전까지 글씨는 손으로 ‘그려서’ 써야했다. 그래서 손 글씨에는 글 쓰는 자의 개성, 낭만주의 시대의 표현으로는 ‘영혼’이 담겨있다고 생각했다. 그런 점에서 모든 손 글씨는 잘 쓰든 못 쓰든 캘리그라피, 말하자면 글이자 그림인 기호다. 한편 정형화된 활자를 기계적으로 찍어내는 타자기의 글씨는 개성 없는 타이포그래피, 즉 유형으로 굳어진 기호다. 손 글씨에 문자와 이미지의 특성이 혼재한다면 타자기는 후자를 추방함으로써 순수한 문자시대를 열었다고 할 수 있다. 정보를 생산하는 속도, 즉 정보량도 중요하다. 손 글씨로는 타자수의 글쓰기 속도를 결코 따라잡을 수 없다. 독수리 타법으로 치는 이들은 예외지만…

카메라와 타자기는 여러모로 유사하다. 우선 정보를 생산하는 속도가 그렇다. 카메라로 사진을 ‘찍는’ 속도는 손으로 이미지를 그리는 데 걸리는 시간에 비할 바가 못 된다. 이미지를 생산하는 자의 ‘개성’도 타자기가 그렇듯 카메라에 투사되지 못한다. 카메라는 대상을 ‘기계적으로’ 재현할 뿐이고, 찍는 자의 개성은 극히 제한적으로만 발휘될 수 있다. 물론 찍는 자의 ‘스타일’은 있다. 그래서 한 장의 사진으로 그를 이해할 수는 없다. 어쨌든 사진이 그림을 대체하면서 이미지 생산에 사람의 개성이 스며들 여지는 대폭 줄어들었다. 타자의 보편화로 손 글씨를 보기 힘들어진 것처럼 손 그림도 희귀해졌다.

 

이런 유사성에도 불구하고 카메라와 타자기는 다르다. 전자가 이미지, 후자가 문자를 처리한다는 근본적인 차이 외에도 정보의 기록이라는 차원을 고려해야 한다. 실상 카메라는 사진이 발명되기 훨씬 전부터 ‘어두운 방(Camera obscura)’의 형태로 존재해 왔다. 사진은 이 ‘상자’에 맺힌 빛의 궤적을 감광물질을 통해 고정시킨 이미지다. 따라서 카메라만으로는 이미지를 ‘기록’할 수 없다. 한편 타자기는 자판과 연동된 활판이 먹끈(잉크리본)에 순간적인 압력을 가해 문자를 ‘찍어내는’ 구조다. 금속활자의 인쇄방식을 변형시킨 셈이다. 따라서 애초부터 타자기는 ‘순간인쇄’, 그리고 ‘단일인쇄’를 위해 고안된 기계다. 타자기의 먹끈은 아주 단순한 원리로 작동하나 실상 정보를 ‘무한히’ 기록할 수 있다는 점에서 혁명적이다. 먹끈은 두 개의 원반에 고정돼 있고 자판을 칠 때마다 규칙적으로 한 칸씩 이동하면서 한쪽으로 감긴다. 이렇게 활자를 기록하다가 끈이 모두 풀려 한계치에 이르면 다시 반대쪽으로 감긴다. 그리고 이 양방향 운동은 ‘이론적으로’ 무한히 계속될 수 있다.

카메라에 대한 문헌기록은 11세기 이슬람 학자 알하젠의 책에 등장하지만 이 시기의 장치는 먹끈 없는 타자기와 다를 바 없다. 따라서 이미지 정보를 기록할 수 있는 감광물질이 19세기에 카메라와 ‘결합’하면서 비로소 사진이 발명됐다고 얘기한다. 그러나 감광물질을 바른 필름은 값이 비쌌고 한번 이미지를 기록하면 ‘재활용’이 불가능했다. 말하자면 일회용이었다. 그런데 디지털 카메라가 나오면서 정보를 ‘무한히’ 저장할 수 있게 됐다. 당연히 ‘재활용’도 가능하다. 실상 타자기도 워드 프로세서로 진화하면서 디지털 카메라와 비슷한 ‘혜택’을 입게 됐다. 두 기계가 생산하는 정보는 모두 동일한 형태의 데이터로 저장되기 때문이다. 그리고 그 귀결점은 컴퓨터다. 오늘날의 타자기와 카메라는 ‘거의’ 컴퓨터로 통합되고 있다. 워드프로세서와 디지털 카메라 기능을 장착한 휴대폰은 이름만 ‘전화기’지 실상은 모든 정보를 하나로 통합시켜 처리하는 컴퓨터다. 이런 환경에서 이미 타자기는 사라졌고 카메라도 비슷한 운명에 처해있다.

박평종 (중앙대학교 인문콘텐츠연구소 연구교수)

찍으면 나오고 누르면 열릴 것이다

찍으면 나오고 누르면 열릴 것이다

찍으면 나오고 누르면 열릴 것이다
07/15/2020
/ 박평종

 휴대폰이 보급되기 전까지 전화번호를 기억하는 능력은 참으로 비상했다. 기억력이 좋은 편이 아님에도 자주 쓰는 번호는 잊어버리는 법이 없었다. 심지어 20-30년 전에 자주 걸었던 ‘특별한’ 전화번호들을 아직도 기억한다. 그런데 지금은 대부분의 전화번호를 거의 기억하지 못한다. 개인정보 확인을 위해 내 전화번호는 또렷이 기억하나 다른 번호는 기억의 목록에 없다. 아내의 번호도 모르고, 정기적으로 문안인사 드리는 어머니 번호도 모르며, 일주일에 몇 번씩 통화하는 지인들의 번호도 알지 못한다. 뭐 119 같은 번호야 잊어버릴 일이 없지만.

이유는 간단하다. 대부분의 번호는 휴대폰에 저장되어 있으며, 목록에서 찾지 않더라도 자주 거는 번호는 단축키만 누르면 되기 때문이다. 단축키가 아니어도 목록을 뒤져 터치만 하면 된다. 키가 핵심이다. 키(key)는 무엇일까? 키보드의 자판을 뜻하지만 그것만 가리키지는 않는다. 혹자는 단추, 버튼이라고도 부른다. 키의 역할이 중요하다. 키는 문자 그대로 열쇠를 가리키는데, 말하자면 여기서 저기로, 즉 여기서 보이지 않는 다른 공간으로 들어가기 위한 해결책이다. 간단한 동작 하나로 공간 이동을 가능케 하는 놀라운 힘이 키에 있다. 따지고 보면 공간 이동이라기보다 두 상이한 공간을 연결해 주는 장치라 할 수 있다. 단추가 그렇고 버튼이 그렇다. 고리 형이든 똑딱이 형이든 단추는 옷의 양쪽을 연결해주는 물건이고, 버튼은 본래 전류의 흐름을 연결하거나 차단하는 장치로 스위치와 같은 기능을 한다. TV나 컴퓨터의 on/off 버튼이 그 예다. 누르면 순식간에 새로운 공간이 열리고 다시 누르면 바로 닫힌다.

볼록한 형태의 키는 이제 휴대폰 액정화면의 평평한 키로 진화했다. 모양은 달라도 원리는 같다. 전자를 작동하려면 손가락의 압력, 손목의 근육이 필요하다. 무수히 키를 눌러대는 이들에게 ‘손목터널증후군’이라는 신종 장애가 생겨난 이유다. 평평한 키로 바뀌면서 그런 우려는 사라질 것 같다. 가벼운 터치가 ‘힘든’ 노동을 대체한 덕분이다. 그래도 어쨌든 키의 기능은 불변이다.

 

카메라 셔터도 일종의 키다. 사실 정확히 말하자면 셔터가 아니라 버튼이 키다. 사진을 촬영할 때 셔터를 누른다는 표현은 잘못이다. 셔터는 카메라 내부에서 빛을 차단하고 있다가 촬영 순간 빛이 렌즈를 통해 필름에 도달하도록 설계된 장치일 뿐이고, 이를 작동시키는 도구가 단추, 즉 버튼이다. 셔터는 차단이 목적이나 버튼은 개방을 위해 있다. 19세기에 카메라 대중화의 길을 처음 열었던 코닥의 광고 문구는 “You press the button, We do the rest”였다. 따라서 카메라를 작동시켜 현실세계와 가상세계(이미지)를 연결시켜 주는 장치도 결국 키(버튼)다. 셔터의 버튼을 누르는 순간 이 세계와 저 세계의 접점이 완성되는 것이다. 그런데 키를 누르는 ‘간단한’ 동작이 어떻게 ‘복잡한’ 정보를 대번에 저장할 수 있을까? 사전에 그렇게 설계됐기 때문이다. 말하자면 현실의 모습을 유사 이미지로 포착하게 돕는 광학이론(카메라)과 그 이미지를 감광물질 위에 저장하게 해주는 화학이론(혹은 디지털 기술)의 연합을 통해 프로그램 되어 있는 것이다. 버튼을 누르는 동작은 그 프로그램을 작동시키는 행위일 뿐이다. 그래서 사진을 생산하는 데는 ‘고도의’ 훈련이 필요 없다. 버튼을 누를 수 있는 힘과 의지만 있으면 누구나 가능하니까. 그러나 ‘가치 있는’ 사진을 생산하는 것은 다른 문제다. 키를 눌러야 사진이 찍히지만 그것이 본질은 아니라는 뜻이다.

오늘날 키는 정보 생산을 위한 가장 보편적인 통로가 됐다. 과거에는 눈으로 직접 보면서 쓰거나 그려야 했다. 선적인 행위, 요컨대 연속적인 행위다. 한편 키를 누를 때 우리는 무엇이 화면에 펼쳐질지 알지 못한다. 즉 자신이 생산할 정보를 보지 못한 채 맹목적으로 생산 행위에 가담한다. 그리고 그 행위는 점을 찍듯이 불연속적이다. 찍는 행위는 사실 불확실성을 수반한다. 시험문제를 풀 때 모르면 찍는다고 하지 않던가. 알면 찍을 필요가 없기에. 모르면 찍는 수밖에 없다. 점쟁이의 예측도 실상 찍는 행위다. 요컨대 수많은 경우의 수 중 하나를 무작위로 선택할 때 찍는다고 말한다. 그렇게 보면 사진을 찍는다는 표현은 사진의 특성을 명쾌히 함축하고 있다. 카메라는 무수한 가능성 중 무작위로 하나를 ‘찍어내기’ 때문이다. 그런데 무엇이 나올지 몰라도 버튼을 눌러야 한다. 버튼은 본래 누르기 위해 제작됐으므로. 간단한 터치가 때로 파국을 불러올 수도 있다. 따라서 신중한 ‘터치’가 필요하며, 그것이 어떤 세계를 열어줄지 예측할 수 있어야 한다.

박평종 (중앙대학교 인문콘텐츠연구소 연구교수)

도둑 잡는 도둑

도둑 잡는 도둑

도둑 잡는 도둑
06/17/2020
/ 박평종

AI의 사진 복원

포토샵의 시대가 저물고 있다. 디지털 기술의 보급 이후 사진 편집기의 대명사로 여겨졌던 포토샵은 이제 다른 기술로 대체될 조짐이다. 이 사진 편집기의 출시년도가 1990년이니 벌써 30년 동안 부동의 왕좌를 차지하고 있었던 셈인데, 이제 그 자리를 컴퓨터 알고리즘이 넘보는 상황이다. 포토샵의 권위는 확고부동했다. 아날로그 사진 이후를 포스토 포토그래피라 부르며 디지털 사진과의 차별성을 논할 때도 포토샵은 디지털 사진 자체를 가리킬 정도였으며, 어도비 포토샵이라는 고유명사는 마치 보편명사처럼 사용될 만큼 대중들의 뇌리에 확고히 자리 잡았다. 

포토샵의 ‘능력’은 사진의 보정과 합성이라는 두 측면에서 대단히 우수했다. 노출이 잘 맞지 않은 상태로 찍힌 사진, 명암 차가 커서 디테일이 잘 표현되지 않은 사진을 보정하는 것은 물론이고 색상과 형태도 ‘어느 정도’ 바꿀 수 있어 수정 능력 또한 훌륭했다. 디지털 성형을 통해 딴 사람이 되는 경우도 흔했다. 물론 ‘뽀샵’을 잘 해야 하지만… 서로 다른 두 장 이상의 원판을 합성할 때도 포토샵의 위력은 대단했다. 포토샵이 없었을 때, 말하자면 아날로그 시대에 사진을 합성하려면 ‘고도의’ 기술이 필요했다. 포토몽타주라 불리는 합성사진은 보편적이지 않았을 뿐만 아니라 눈에 띄게 자국이 남아 ‘허접’했다. 그런데 포토샵으로 쉽고 정교하게, 눈치 챌 수 없을 만큼 티 나지 않게 사진을 합성하는 것이 가능해지면서 패러다임도 달라졌다. 과거에는 사진을 ‘기록’이나 ‘현실의 흔적’으로 생각해 왔으나 포토샵은 사진의 개념을 ‘허구’와 ‘가상’으로 바꾸어 놓았다. 일반인들이 제작한 합성사진의 품질은 ‘너무도’ 뛰어나 이제 작가들은 자신이 합성한 ‘작품사진’이 그들의 ‘놀이’와 ‘왜’ 다른지 입증해야 하는 곤혹스러운 처지에 놓이게 됐다. 이것이 포토샵 ‘제국’이 야기한 결과들이다.

 

그런데 이제 상황은 변하고 있다. 예컨대 앤비디아(Nvidia)에서 개발한 사진합성 알고리즘은 기능이나 성능, 속도 등 모든 면에서 포토샵을 압도한다. 귀찮은 ‘노동’도 요구하지 않는다. 실상 포토샵을 활용한 합성사진에는 정도의 차이는 있을지언정 접합의 흔적이 남는다. 그런데 앤비디아의 알고리즘은 전혀 그렇지 않다. 적대적생성신경망(GAN)을 적용한 ‘StyleGAN’은 마치 실제 인물처럼 두 장 이상의 이미지를 합성해 낼 수 있다. 이는 ‘판별자’를 속이는 ‘생성자’가 고도의 ‘유사 이미지(가짜)’를 만들어내도록 최적화되어 있는 GAN알고리즘의 원리 때문이다. 포토샵의 목표가 합성의 흔적을 분간할 수 없을 만큼 정교한 이미지를 만들어내는 데 있다면 그 목표는 이제 이 알고리즘에 와서 달성됐다고 할 수 있을 정도다. 사람의 눈은 그 차이를 알아보지 못한다. 포토샵이 담당해 왔던 보정, 수정기술도 이미 AI 기반의 신기술을 통해 ‘정복’되고 있다. 저해상도 사진을 고해상도로 복원하는 것은 물론이고 각종 ‘노이즈’ 처리도 탁월하게 수행하는 것이다.

*GAN알고리즘에 대해서는 필자의 다른 칼럼 <한없이 진짜에 가까운 가짜>에서 다룬 바 있다.

 

AI의 사진 합성

변화의 내용이 합성의 용이함과 정교함에만 있지는 않다. 그 못지않게 근본적인 변화는 합성의 주체가 인간에서 기계로 바뀐다는 사실이다. ‘포토샵 제국’은 ‘뽀샵질’을 잘하는 사람에게만 접근 가능했다. 한편 알고리즘은 ‘뽀샵질’을 못하는 이에게도 완벽한 합성의 길을 열어줄 것이다. 기계가 알아서 해준다는 뜻이다. 그리고 그것이 합성인지 아닌지, 요컨대 진짜인지 가짜인지 구별할 능력은 사람에게 없다. 그런데 놀랍게도 사람에게는 다른 능력이 있다. 자신이 못하는 것을 기계가 대신하라고 가르치는 능력이 그것이다. 앤비디아에서 최근에 개발한 다른 알고리즘은 사진의 합성 여부를 판별하는데, 정확도는 매우 높다고 알려져 있다. 이런 기술들은 아직 완전하지 않으나 날로 고도화되는 추세다. GAN알고리즘이 생성자와 판별자라는 두 축으로 구성돼 있어 가능한 논리다. 도둑을 알아보는 눈은 경찰보다 도둑이 더 낫지 않을까 싶다. 도둑 잡는 도둑이라고나 할까.

박평종 (중앙대학교 인문콘텐츠연구소 연구교수)

골짜기일까, 정상일까

골짜기일까, 정상일까

골짜기일까, 정상일까
05/28/2020
/ 박평종

캔디

어린 시절 만화 <캔디 캔디>를 즐겨봤는데, 돌이켜 생각해보면 얼굴의 절반 가까이를 덮어버릴 정도로 큰 눈이 이상하다는 생각은 하지 않았던 것으로 기억한다. 오히려 ‘큰 눈’은 선망의 대상이었던 것 같다. 2019년에 개봉한 영화 <알리타: 배틀 앤젤>에 등장하는 사이보그 알리타도 과도하게 큰 눈을 가졌지만, 그 점이 오히려 관객들에게 호감을 불러일으켰다고 한다. 한편 사람과 비슷하게 생겼어도 왠지 불편하고 때로는 불쾌하며 심지어 두려움을 불러일으키는 경우가 있다. 호러 영화에 등장하는 각종 유사인간 캐릭터나 좀비가 그렇다. 이들은 사람과 닮았음에도 혐오와 공포의 대상이다. 이처럼 사람과 생김새는 유사하나 ‘기이한’ 행동을 하는 존재로부터 받는 특이한 감정을 심리학자들은 ‘불쾌한 골짜기(Uncanny valley)’ 이론으로 설명한다. 물론 모두가 동의하지는 않는다. 본래 로봇공학 분야에서 나온 이 이론의 요지는 다음과 같다. 어떤 존재(예컨대 로봇)가 인간을 닮을수록 호감이 증가하다가 어느 순간부터 급격히 불쾌감으로 바뀌며 다시 원래의 호감을 회복한다는 것이다. 불쾌감은 인간과의 유사함에 대한 기대가 꺾이는 순간, 말하자면 비슷하게 생겼는데 어색한 행동을 보이는 지점에서 발생한다. 왜 그럴까? 불쾌감을 불러일으키는 이유가 중요하다. ‘불쾌감’으로 번역되는 ‘언캐니’의 원인이 핵심이라는 뜻이다.

‘골짜기’ 이론을 제안한 일본의 로봇공학자 모리 마사히로는 프로이드의 언캐니 개념에서 이 발상을 끌어왔다. 프로이드의 언캐니는 독일어 ‘운하임리히(unheimlich)’의 번역어다. 이 단어는 ‘하임리히(heimlich)’와 한 쌍으로 프로이드는 이 단어가 지닌 여러 의미 중 ‘익숙함/낯설음’에 중점을 두고 해석한다. 말하자면 언캐니는 원래 익숙했던 것이 갑자기 익숙하지 않게, 낯설게, 섬뜩하게 인식될 경우 발생한다는 것이다. 프로이드는 이 개념을 한스 호프만의 <모래인간> 해석에서 끌어왔는데, 복잡하고 난해한 해석의 여러 가지들을 쳐내고 ‘골짜기’ 이론과의 관련성만 따지자면, 여기에는 주술적 의미가 깔려있다. 언캐니가 발생하는 여러 원인 중 대표적인 예는 물건(예컨대 인형)이 특정 상황에서 살아있는 생명처럼 인식되는 경우다. 이를 프로이드는 현대인이 ‘이미’ 극복한 애니미즘적 사고가 ‘부활’한 것으로 본다. 말하자면 애니미즘이라는 ‘주술적 사고’는 완전히 극복되지 못한 채 ‘무의식’에 남아있다는 것이다.

불쾌한 골짜기(Uncanny Valley)

본래 인형은 생명이 없는 물건이며, 그것이 ‘하임리히’, 즉 익숙한 관념이다. 그런데 그 ‘죽어있는’ 인형이 어느 순간 생명체처럼 느껴질 때 ‘운하임리히’, 즉 익숙하지 않은 관념을 건드린다. 당초의 익숙한 관념이 동요하면서 낯설음은 기이함으로, 나아가 섬뜩함으로 바뀐다는 것이다. 독일 작가 한스 벨머(Hans Bellmer)의 <인형> 작업에 대한 로잘린드 크라우스의 해석도 그런 맥락에 있다. 좀비가 전형적인 예다. 시체가 살아 움직인다는 허황된 발상에도 불구하고 언캐니는 주술적 관념의 찌꺼기 덕분에 이미 반세기 전 달에 토끼가 없다는 사실을 확인한 현대인의 정서를 여전히 건드리고 있다. 물론 좀비를 믿지는 않지만 말이다. 로봇에게 느끼는 언캐니도 그렇다. ‘골짜기 이론’의 관점에서 보면 로봇이 사람과 비슷할수록 호감은 당연히 증가하는데, 어느 순간 어색한 행동을 보이면 익숙함이 기이함으로 바뀌는 것이다. 몇 년 전 한국을 방문했던 휴머노이드 ‘소피아’도 이 ‘골짜기’ 근처 어딘가에 있다.

최근 논란이 되고 있는 리얼돌(realdoll)도 이 ‘골짜기’ 안에 있다고 보는 시각이 있다. 리얼돌은 그냥 쉽게 섹스로봇이다. 킬러로봇도 개발되고 있는 마당에 섹스로봇이 없을 수 없다. 그런데 리얼돌의 상품성이 크다면, 다시 말해 이 ‘섬뜩한’ 인형을 찾는 사람이 많다면 ‘골짜기’ 이론은 잘못됐거나 리얼돌은 언캐니하지 않거나 둘 중 하나다. 아, 다른 가능성 하나가 더 있다. 언캐니를 ‘즐기는’ 경우다. 그 때 리얼돌은 호감도 그래프의 ‘골짜기’가 아니라 정상에 있다.

한스 벨머, 인형

리얼돌

박평종 (중앙대학교 인문콘텐츠연구소 연구교수)

감정교육이 될까?

감정교육이 될까?

감정교육이 될까?
05/13/2020
/ 박평종

기욤 뒤셴 드 불로뉴, 인간 표정의 메카니즘, 1862

플로베르는 <감정교육>에서 주인공 프레데릭 모로가 19세기 프랑스 자본주의 사회에서 성장해 나가는 과정을 특유의 사실주의적 문체로 담담히 묘사하고 있다. 왜 ‘감정교육’일까? 청년 프레데릭은 고향인 노장(Nogent)을 떠나 자신의 야망을 실현하기 위해 파리로 상경한다. 출세하고자 진입한 사교계에서 권력의 암투를 보기도 하고, 정치적 이상에 따라 2월 혁명을 준비하는 동료들을 만나 이상과 현실 사이에서 갈등을 겪기도 하며, 사랑하는 여인을 만나지만 현실에서는 그 사랑을 이룰 수 없어 결국 영원한 이별을 선언하기도 한다. 이 모든 과정이 결국 한 ‘사회적 인간’으로 살아가는 데 필요한 감정을 학습하는 기간이었던 셈이다.

그런데 대관절 감정을 ‘학습’한다 함은 무슨 뜻일까? 감정이란 외부 상황이나 자극에 대해 개체가 즉각 취하는 심리적 반응 아니던가? 감정에는 판단이나 성찰이 수반되지 않기에 ‘학습’에 요구되는 일정한 시간이 필요치 않다. 말하자면 감정은 학습하는 것이 아니라 이미 ‘축적된’ 학습에 따른 즉각적 반응이라는 것이다. 그리고 그 반응은 표정이나 몸짓, 행동 등으로 표현된다. 따라서 이 표현의 양상들을 살펴보면 감정의 상태를 알 수 있다.

최근 인공지능 분야의 화두는 감정 인식이다. 데이터를 분석, 종합하여 최적의 솔루션을 제시하는 데 그치지 않고 인간의 감정을 이해하여 사용자들에게 훨씬 정교한 서비스를 제공하겠다는 것이다. 이 발상에 따르면 정확한 감정 인식을 통해 스스로 감정을 표현하는 로봇 제작도 가능하다. 인공지능이 감정을 학습하는 방법은 다양하다. 감정은 목소리에도 실리고, 글에도 나타나며, 얼굴 표정에도 드러나기 때문이다. 특히 표정은 ‘내면의 목소리’가 표출되는 가장 구체적인 양태다. 감성 인공지능의 가능성을 보는 이들은 예컨대 AI가 수많은 표정 이미지를 딥러닝으로 학습함으로써 어떤 표정이 어떤 감정 상태에 대한 반응인지 판단할 수 있다고 생각한다. 그리고 표정은 기계적인 방식으로 조합해낼 수 있다.

기욤 뒤셴 드 불로뉴, 인간 표정의 메카니즘, 1862

찰스 다윈, 인간과 동물의 감정표현, 1872

이런 발상이 처음은 아니다. 19세기 프랑스의 신경의학자 뒤셴 드 불로뉴(Guillaume Duchenne de Boulogne)는 얼굴 표정이 특정 안면근육의 이완과 수축의 결과물이며, 따라서 국부적인 전기 자극으로 표정을 만들어낼 수 있다고 여겼다. 그는 실험 과정을 사진으로 기록하면서 표정과 외부 자극의 상관관계를 연구했고, 그 결과 핵심 감정 6개(분노, 공포, 놀람, 혐오, 행복, 슬픔)를 추출하고, 다시 복합감정 60가지를 구분했다. 표정과 감정에 대한 연구는 다윈의 <인간과 동물의 감정표현(1872)>에서 한층 심화된다. 그에 따르면 감정은 진화의 결과물로 종의 보존에 필요한 개체의 반응이 세대를 거쳐 전수되면서 귀착된 것이다. 그리고 표정은 특정 감정에 대해 단일 종이 공통으로 갖고 있는 고유한 신체 반응이다. 예컨대 배설물이나 썩은 음식에 대해 역겨운 감정을 갖는 것은 그 물질을 섭취했을 때 개체 보존이 위협받는 상황을 ‘미리’ 방지하기 위함이다. 표정은 일종의 ‘시각신호’로 특정 감정을 동일종의 다른 개체들에게 효과적으로 전달할 수 있는 수단이다. 다윈은 감정이 진화의 산물임을 입증하기 위해 인간과 다른 영장류의 ‘표정’이 지닌 유사성을 강조하기도 한다. 여기에 활용된 도판의 일부는 불로뉴의 연구에서 가져온 것이다.

감정과 표정이 일정한 상관관계를 갖고 있다면 감정 학습은 ‘이론적으로’ 가능하다. 그런데 기계가 수많은 표정을 학습하여 하나의 표정이 어떤 감정에 대응하는지 알 수 있다 할지라도 그 감정 자체를 알 수는 없다. 실제 경험하지 않았기 때문이다. 예컨대 <감정교육>의 프레데릭이 아르누 부인과 영원히 결별하면서 느꼈던 그 감정, 비통하고 애절하며 가슴이 미어지는, 말로 온전히 형언할 수 없는 그 감정이 어떤 것인지는 겪어본 자만이 알 수 있는 그런 것이다. 아마도 언젠가는 기계가 감정을 학습하여 판별도 하고 나아가 표정을 통해 특정 감정을 표현하는 날이 올 것이다. 하지만 그 자의 표정은 결국 포커페이스다. 감정은 머리로 배우는 것이 아니기에.

인공지능의 감정 판독

박평종 (중앙대학교 인문콘텐츠연구소 연구교수)

달면 삼키고 써도 삼키는…

달면 삼키고 써도 삼키는…

달면 삼키고 써도 삼키는…
04/29/2020
/ 박평종

어린 시절 양철지붕 집에 잠시 살았던 적이 있다. 양철지붕 하면 테네시 윌리암스의 <뜨거운 양철지붕 위의 고양이>가 떠오르는데, 실제 더운 한낮에는 집안에 오래 머물기 쉽지 않았다. 그런데 열기보다 더 괴로운 것은 비 내릴 때의 소음이었다. 빗방울이 거칠수록 소음도 커서 지붕을 걷어내 버리고 싶은 마음이 들 정도였다. 소음이란 무엇일까? 소음은 소리의 크기와 상관없다. 소리가 커도 듣기 좋은 경우가 있고 속삭여도 신경을 거슬리는 소리가 있다. 18세기 생리학자 르 카(Le Cat)는 소음을 “규칙을 찾을 수 없는 음”, 따라서 “그 속성을 연구할 수 없는 음”으로 정의한다. 말하자면 불규칙하여 질서가 없는 소리, 제멋대로 돌아다니는 소리라는 것이다. 안정과 평온을 바라는 사람에게는 듣고 싶지 않은 소리다. 허나 내가 원치 않는다고 해서 귀가 그 소음을 필터링하지는 못한다. 감각기관은 의지의 권한 밖에 있다.

독일 매체이론가 키틀러는 소위 ‘기록시스템 1900’의 핵심축인 축음기가 소리정보를 ‘기록’하면서 대단히 중요한 변화가 생겨났다고 지적하는데, 그 변화의 본질은 소음의 기록에 있다. 이는 시간을 ‘통째로’ 기록하면서 생겨난 현상이다. 인간은 듣고 싶은 음과 듣기 싫은 음을 구분하여 후자를 ‘배제’한다. 그렇게 소음은 인류 공동체에서 축출당해 왔다. 이는 소리뿐 아니라 모든 정보의 기록에 동일하게 적용된다. ‘기록시스템 1900’ 이전, 키틀러의 용어로는 기록시스템 1800, 즉 문자가 모든 정보의 기록을 ‘독점’하던 시대에 정보의 누락은 필연적이었다. 말하자면 문자로 정보를 기록할 때 인간은 선택과 배제를 동시에 행한다. 원치 않는 정보, 불필요한 정보, 유용하지 않은 정보는 필터링 되어 역사 속에서 증발해버린다. 결국 우리가 알고 있는 역사란 기록으로 남은 역사다.

악보의 세계도 크게 다르지 않다. 예컨대 화성악에서 완전5도는 가장 ‘아름다운’ 음정으로 고전주의 시대에는 소음의 판별기준이었다. 그러나 축음기가 모든 소리를 온전히 기록하기 시작한 이후 소음도 악보 안으로 들어온다. ‘듣기 싫었던’ 음을 듣게 되는 셈이다. 그렇게 축음기가 열어놓은 소음의 ‘질서’가 19세기 이후의 세계를 지배한다. 쇤베르그의 무조음악은 물론이고 존 콜트레인의 ‘고막이 터질 듯한’ 파열음도 음악의 일부가 됐다.

소리라는 청각정보가 그렇다면 이미지라는 시각정보는 어떨까? 기록시스템 1900에 키틀러는 영화를 추가했지만 소음의 기록이라는 관점에서 보면 영화보다 사진이 그 시스템에 더 적합해 보인다. 카메라는 사람의 눈과 달리 보기 싫은 것도 기록한다. 렌즈 앞에 펼쳐진 모든 것을 ‘공정하게’ 감광판에 각인시키는 이른바 기계의 눈 덕이다. 물론 눈의 구조도 카메라 렌즈의 그것과 유사하기 때문에 감각기관으로서의 눈은 모든 것을 본다. 그래서 끔찍한 장면 앞에서 눈을 감아버린다거나, 눈을 돌려버린다고 말하지 않던가. 눈은 의지와 상관없이 눈앞에 펼쳐지는 모든 것을 볼 수밖에 없는 것이다. 문제는 망막에 맺힌 이미지가 시신경을 통해 뇌로 전달되어 인식이 이루어지는 과정에서 배제가 발생한다는 점이다. 그 덕에 우리는 뇌 용적의 한계에도 불구하고 기억을 갱신할 수 있다.

그림과 사진의 본질적인 차이도 여기에 있다. 그림에서는 문자처럼 선택과 배제의 원리가 작동한다. 내가 보고 싶은 것만 그리기 때문이다. 반면 사진에서는 내가 찍고 싶지 않은 것도 찍힌다. 축음기가 소음까지 기록하듯 카메라도 불필요한 정보를 기록하는 셈이다. 축음기 덕에 ‘소음의 세계’를 알게 된 것처럼 우리는 카메라 덕에 ‘시각적 무의식’의 세계(벤야민)를 볼 수 있게 됐다. 그러나 배제의 원리 탓에 보지 못했던 세계가 사진과 더불어 열렸음에도 불구하고 사람의 눈은 여전히 보려 하는 것만 본다. 그런데 기계가 이미지를 판독하기 시작하면서 변화가 생겨난다. 특히 AI 기반 이미지 판독시스템의 진화로 상황은 급변하기 시작했다. 영상의학 분야는 물론이고 자율주행자동차, 공항검색대 등 기계의 눈은 도처로 확장되고 있다. 물론 아직 이 기계의 눈은 여러모로 불완전하다. 예컨대 모든 시각적 요소를 동일하게 취급하는 탓에 기계는 불필요한 시각정보도 식별의 요소로 간주한다. 가령 강아지와 비슷한 형태의 치킨을 강아지로 판독하거나, 머핀의 건포도를 강아지의 눈으로 인식하는 경우다. 음성처리에서도 기계는 소음을 무시하지 못해 애를 먹는다. 사람은 달면 삼키고 쓰면 뱉지만 기계는 써도 삼킨다는 뜻이다. 약인지 독인지도 모른 채.

 

박평종 (중앙대학교 인문콘텐츠연구소 연구교수)