인간적인, 너무나 인간적인
04/01/2020
/ 박평종

지난 2015년 구글 포토에 한 남성이 올린 흑인 여성의 얼굴사진이 고릴라로 분류된 ‘황망한’ 사건이 있었다. 인종차별 논란으로 확산될 조짐을 보이자 구글 측은 서둘러 진화에 나섰고 더불어 인공지능의 바이어스(bias), 즉 편향성 문제가 급속히 수면 위로 떠올랐다. 이후에도 유사한 사례가 지속적으로 제기되고 또 보고돼 왔다. 안면 인식 기술이 고도화되고 있음에도 불구하고 특정 인종에 대한 인식 오류는 종종 발생한다. 또한 여성이나 성소수자에 대한 편향된 정보도 인공지능 기술 기반의 시스템에서 지속적으로 발견되고 있다.

인공지능의 긍정적인 가능성을 신뢰했던 초기 컴퓨터 공학자들과 프로그래머들은 기계가 인간의 편견을 극복하고 정확한 솔루션을 제시해 줄 것으로 기대했다. 그리고 그 예상은 어느 정도 맞았다. 하지만 진화를 거듭할수록 이 ‘똑똑한’ 기계는 인간 못지않게 편향성을 갖기 시작했다. 실제 AI 기반 시스템에서 중립적인 IT회사(예컨대 구글)는 통상 남성대명사로 자동 처리되고, 위키피디아의 인물 정보에서 여성의 비율은 20%도 되지 않는다. 과거 구글 번역기는 의사는 남성, 간호사는 여성 대명사로 처리했다. 나아가 상업용 안면인식 기술에서 백인남성 대 흑인여성의 인식 오류율은 35:0,8%라는 통계도 있다. 이런 편향성을 기계가 ‘의도적으로’ 갖게 됐을 리는 당연히 없다. 원인은 기계 학습에 제공되는 데이터다. 말하자면 데이터 편향이 문제다.

본래 기계는 편향적이지 않다. ‘기계적’이라는 말에 담겨있는 의미가 그렇다. 컴퓨터라는 기계에게 모든 정보는 그냥 숫자일 뿐이다. 그런데 인간의 경우 문제는 좀 복잡하다. 소위 ‘생각하는 기계’ 모델을 구상했던 튜링은 기계가 인간의 사고를 ‘기계적으로’ 모방하면 ‘생각’이 가능하다고 봤다. 사고의 ‘기계적’ 메카니즘을 알고리즘으로 구현하는 것이 그래서 실현될 수 있었다. 그런데 인간의 사고에는 대단히 복잡한 맥락과 정황이 얽히고설켜있다. 기계는 그 맥락을 고려하지 않는다. 그런 점에서 기계는 ‘객관적’이라고들 말한다. 흑인여성의 얼굴사진을 고릴라로 분류한 위의 기계는 자신이 학습한 데이터를 토대로 그 판단을 내놓았을 뿐이다. 그 판단에 담겨있는 문명사적 함의에 대해서는 고려하지 않았다. 오직 분류가 목적이기 때문이다. ‘어떤 점에서’ 그 기계의 판단은 정확했을 수 있다. 그렇게 배웠으므로. 의사는 남성, 간호사는 여성으로 처리한 기계도 마찬가지다. 자신이 학습했던 대부분의 데이터는 그렇게 말하고 있었는데 어쩌란 말인가. 말하자면 기계는 인간의 사고과정만 모방하는 것이 아니라 ‘인간의 데이터’로부터 배운다. 그런 점에서 기계의 편향성은 너무도 인간적이다.

결국 기계의 편향성을 줄이려면 데이터의 편향성을 치유해야 한다. 그건 쉽지 않은 일이다. 우선 기계에게 ‘제공하는’ 학습 데이터가 이미 ‘심각한’ 편향성을 갖고 있다. 예컨대 구글 데이터의 상당 부분은 서양, 특히 미국 중심으로 구축돼 있고, 이를 기반으로 한 알고리즘은 백인 남성 주도로 생산된다. 문제는 인간은 자신의 사고가 편향성을 갖고 있음을 좀처럼 인지하지 못한다는 데 있다. 알아도 바꾸기 어려운데 모르고 있다면 두말할 나위도 없다. 따라서 데이터 구축과 관리에 사회적 합의가 필요하다.

그러나 그것이 전부일까? 실상 기계는 특정한 임무를 수행하도록 제작됐다. 목적 지향적이라는 뜻이다. 편향이 한 방향에 치우쳐 있음을 뜻한다면 기계는 당초 기획 단계부터 편향적일 수 있다. 효율성을 극대화하기 위해 그 목적 달성에 필요한 요소들만 고려하는 탓이다. 그리고 실제 그 덕분에 기계는 인간보다 훨씬 효율적으로 노동한다. 그런 맥락에서 볼 때 기계학습용 데이터를 ‘공정하게’ 제공한다고 해서 인공지능의 바이어스 문제가 해결될 것이라고 섣불리 낙관할 수 없다. 인간은 자신의 단점을 극복하기 위해 기계를 만들었으나 역설적이게도 그 기계는 너무나 인간적이다.

 

박평종 (중앙대학교 인문콘텐츠연구소 연구교수)