정치란 무엇인가 ⑪ 문송천 카이스트 명예교수

“AI 여론 왜곡 핵심은 오염 데이터…정부데이터 50% 쓸데 없어”

2024-05-09 13:00:46 게재

정확하지 않은 생성AI 결과, 사실인 것처럼 SNS로 유통

응급차 뺑뺑이, 이태원참사, 무인기 침공 등 재발 가능성

AI 먹잇감인 데이터, 적법하게 리모델링하는 게 급선무

뉴스에 블록체인 의무화하면 ‘가짜뉴스’ 원천 차단 가능

우리나라 ‘전산학 박사 1호’인 문송천 카이스트 경영대학원 명예교수는 인공지능(AI)의 위험과 한계가 ‘오염된 데이터’에서 시작한다고 경고했다. 그는 ‘부적법한’ 데이터를 오염된 쓰레기라고 불렀다. 오염된 데이터는 인간에 의해 만들어진 잘못된 자료들이다. 문 교수의 설명에 따르면 내용과 형식에서 잘못된 데이터들이 대량으로 축적되고 이를 모아 만든 AI 결과물들이 너무 빠르게 유통되면서 위험은 기하급수적으로 커지게 된다. 이를 악용할 여지도 그만큼 확대된다.

사진 이의종

문 교수는 챗GPT와 같은 생성AI 역시 이 오염된 자료를 가공한 잘못된 결과물을 만들게 된다는 점을 지적했다. AI를 활용해 가짜뉴스를 의도적으로 생산할 수도 있지만 가짜뉴스인 줄 모르고 AI를 통해 나온 결과물을 ‘진실’로 보고 사용하게 되면 ‘본의 아니게’ 가짜뉴스를 생산해 유통하는 꼴이 된다는 설명이다.

그는 가짜뉴스 문제를 해소하기 위해서는 블록체인을 입히면 되지만 이를 거부하는 강력한 세력들이 있다고 봤다.

그러면서 오염된 데이터를 ‘적법하게’ 만들기 위해서는 최상층에 있는 AI가 아닌 데이터에 정통한 전문가를 발탁하고 데이터를 정비하는 데 예산을 써야 한다고 강조했다. 특히 행정안전부, 국방부 등 정부 데이터의 오류를 발견하면 곧바로 수정할 수 있도록 법적 미비점을 보완해야 제2의 이태원 참사, 119 뺑뺑이, 교육행정망 오류, 북한 무인기 서울 진입 등을 차단할 수 있다고도 했다.

문 교수와의 인터뷰는 지난달 24일 서울 카이스트 경영대학원에서 가졌다. 이후 이달 8일까지 수차례 전화와 메일을 통해 내용을 수정했다.

문 교수는 24세에 교수가 된 컴퓨터 데이터베이스 분야의 최고 권위자로 우리나라 50여 년 컴퓨터 역사의 산증인이다. 그는 카이스트 수학물리학 석사를 거쳐 일리노이대 어바나샴페인에서 전산학 박사학위를 받았다. 1982년 클라우드라는 용어를 창안했다. 1985년 카이스트 전산학과 교수로 부임해 최고난도 소프트웨어인 관계형 데이터베이스 엔진 ‘IM’을 1990년 세계 5번째로 국산 개발했고 '데이터 비만도'라는 개념을 만들기도 했다. 현재 유럽IT학회 아시아 대표이사로 있다.

●기술 발전을 향유하는 계층이 주로 고소득층에 집중되면서 경제, 문화 등 사회양극화를 부추길 수 있다는 우려가 있다.

AI에 의해 만들어진 결과가 지금 데이터 품질 수준에서는 신뢰도 50%까지는 갈 수 있다. 그러나 그 이상을 가는 것은 데이터 적법화나 정제 노력 없이는 불가능하다. 잘못된 AI결과를 근거로 의도적으로 부적절하게 사회양극화 수단으로 활용할 개연성은 충분히 있다고 본다.

●인공지능이 약자를 지원하고 사회적 재난을 줄일 수 있나.

복지 쪽 데이터만이라도 적법하게 정제하고 나면 IT기술을 적용해 사회양극화를 해소해 나갈 수 있다. 최근 응급환자 뺑뺑이 사태나 국가 사회보장정보시스템 마비 사태 같은 재난이 벌어졌던 것을 상기해보라. 국가보건복지망에서 한달만에 무려 10만건의 오류가 터져 사회적 약자를 사각지대로 내몬 희대의 대형 사고를 겪고서도 데이터 재설계나 정제 노력이 없는 것을 보면 정부가 사회적 재난 방지에 정말 관심이 있는 것인지 모르겠다. 세월호 같은 사태, 이태원 할로윈 사태나 북한 무인기 탐지 실패 사태 같은 재난도 마찬가지다. 안전한 사회를 만들려면 안전 쪽 데이터 품질 개선부터 서둘러야 할 것이다.

●인공지능에 의한 여론조작이 심각하다. 이유는 뭔가.

냄비 근성 탓이다. 미국 대선에서 터졌던 케임브리지 아날리티가 스캔들은 거의 8700만명 분의 개인정보가 활용돼 수많은 유권자들의 여론 향방을 의도적으로 조작한 사건이다. 이런 유형의 사건사고는 우리나라 뿐만 아니라 어느 나라에서나 있었고 지금도 여전히 있다. 그런데도 늘 남에 집 불 구경하듯이 그냥 일시적 현상으로 지나쳐 버리기 일쑤다. 우리 뇌리를 잠시 스쳐 지나갈 뿐 전혀 체감할만한 해법을 찾지 못한 채 그냥 넘어가는 게 현실 아닌가.

●AI 알고리즘에 의해 여론이 더욱 편향되고 양극화, 극단화된다는 비판이 많다. 해법이 있나.

세상의 데이터, 특히 수많은 문서 데이터들을 적법하게 리모델링하는 작업 과정 없이는 극단화를 막기 힘들다. 그러니 AI에 돈을 들이기 전에 기존 데이터에 대해 리모델링을 하고 새롭게 창출되는 데이터를 위한 데이터 형성이나 제작 방법에 대해 데이터 전문가로부터 사전 특별 교육 훈련을 받아야 한다.

데이터는 창작품이다. 따라서 데이터도 자동차나 물건처럼 제작에 필요한 기초 요령을 반드시 알아야 한다. 누가 어디선가 만들어서 나에게 쓰라고 거저 갖다 주는 게 아니다. AI에 쓸 예산의 불과 10%만 갖고도 그런 데이터 형성이나 정제에 필요한 전문가 지도를 받을 수 있다.

●인공지능 개발은 지금 어디까지 왔나. 20~30년 후엔 어떤 인공지능 시대가 될 것으로 예상하나.

컴퓨터가 출현한 지 올해로 꼭 80년이 됐다. 그러니까 AI도 역시 그 정도 됐다. 20~30년 후가 되면 AI 의사가 엑스레이, 초음파, MRI 화상이나 영상 결과를 완벽하게 분석해 인간 의사를 대체할 날이 올 것이다. 그러나 내과 외과 정신과 의사를 대체할 가능성은 거의 없다.

생성 AI의 등장으로 큰 기대에 차 있는 것은 사실이지만 AI가 가져다 쓰는 데이터에 문제가 많기 때문에 그 문제를 풀기 전에는 의료 제약 기상관측 영화 음악 분야를 제외하면 AI가 할 일은 거의 없다고 봐야 한다. 일각에서 AI의 부작용으로 우려를 하고 있는 딥 페이크 같은 것들은 누구나 신뢰할 수 있는 뉴스원인 정론지로 하여금 IT 기술을 써서 거르게 하면 지금 피싱에 대처하듯이 어렵지 않게 해결해 나갈 수 있다.

AI의 먹이인 데이터에 문제가 있다는 말은 현존하는 세상의 문서 안에 있는 데이터의 절반가량이 자의반 타의반으로 또는 아무도 모르게 어느새 이미 엉터리로 만들어져 있다는 의미다. 각종 문서 데이터를 데이터 품질 면에서 만족할 만한 수준이 되도록 고치기 전에는 AI가 설 땅이 없을 것이다.

●여론조작 가능성을 어떻게 차단해야 하나.

모든 뉴스와 의견의 원천지에 대해 블록체인 처리하면 손쉽게 차단할 수 있다. 뉴스원에 대한 추적과 유통과정의 투명성은 물론 부인불가성이 보장되기 때문이다. 그래야 가짜 뉴스가 완벽하게 근절된다. 역추적을 자동적으로 가능하게 하지 않고 악의 뿌리를 차단하는 것은 불가능하다.

이 해법의 정확성과 신뢰성에 대해서는 기술적으로 누구도 의심의 여지를 달 수 없지만 블록체인 기술 적용에 대해 거부감을 갖는 특정 집단이 존재한다. 여야의 입장이 특히 선거를 앞두고 첨예하게 대립되기 때문이다. 여야가 선거가 끝난 후 선거결과에 따라 입장이 달라지면 언제 그랬냐는 듯 아무 문제 삼지 않고 그냥 넘어가기 일쑤다. 이율배반적이다.

●정부의 역할은 무엇인가.

쓸모없는 데이터의 정도를 나타내는 데이터 비만도는 상당히 심각한 상황이다. 비만 현상을 해소하려면 정부가 나서서 노력을 펼쳐야 함에도 불구하고 공직사회에서는 개선을 위한 법적 제도적 근거가 없다는 핑계로 발뺌하는 실정이다. 전문가 입장에서 보면 이런 개선 노력 부재로 매년 수 조원 수준의 국민 혈세가 ‘밑 빠진 독에 물 붓기’ 식으로 잘못 사용되거나 낭비되고 있다. 이건 반드시 바로잡아야 할 국가적 중대 사안이다. 이 문제의 심각성에 대해 다른 어느 곳보다 대통령실에서 우선 알아야 한다.

●정부 데이터 오염도 역시 심각한가.

행정망 문제는 엉뚱한 서류 출력 현상 지속으로 현재도 여전히 진행형이니 말이다. 국가 데이터 관리에 정부가 얼마나 부실한지를 극명하게 보여준 결정적 단서가 이번 정부24 시스템(행정망의 중추) 오류다. 다른 사람 민원서류가 나왔으면 그게 당연히 데이터 오류지 왜 컴퓨터 코딩 오류라고 하고 넘어가는가. 설령 업체에서 그렇게 해명하더라도 국가데이터 관리 책임부처에서는 그걸 액면 그대로 받아들이면 안된다. 코딩이란 데이터라는 먹이를 단순히 찾아가는 존재다. 엉뚱한 경로로 데이터를 찾아가게끔 데이터 경로 지도가 잘못 설계돼 있다 보니 틀린 데이터 쪽으로 정처 없이 흘러 간 것이다. 이걸 모른다면 컴맹수준이다. 그런 열악한 수준의 사람들이 국가 데이터를 관리하고 있다면 나라 꼴이 뭐가 되겠는가. 제대로 된 데이터 전문가가 정부에 과연 한 명이라도 있는지 의심할 수밖에 없다. 우리나라 전체에 통합된 국가데이터지도 하나 제대로 된 게 없다는 사실을 총리실이나 대통령실에서 안다면 가만히 보고만 있을 수 있을까.

내가 직접 정부 부처 데이터를 외부 전문가로 감사한 결과 전체 데이터의 절반가량이 쓸모없는, 즉 쓸데없는 데이터로 판명됐을 정도다. 인체에 비유하면 고도 비만으로 언제 돌연 쓰러질지 모를 정도다. 정보시스템이 아슬아슬 위태롭게 돌아가고 있다는 얘기다.

현행 데이터 비만도는 무려 65%에 달한다. 그걸 15% 선으로 대폭 낮추기 전에는 행정망 사태 같은 종류의 사건사고는 불현듯 또다시 터지게 되어 있다고 해도 과언이 아니다. 공공 부문에서 이런 엉망인 데이터를 AI의 학습 먹이로 사용한다면 ‘AI 환각’ 현상은 예견된 것이나 다름없는 일이다. 따라서 정부나 지자체 등의 AI 활용 시도는 먼저 데이터 품질을 개선하기 위한 노력을 하지 않는 한 시기상조다.

●인공지능을 입법이나 인사청문회 등 정치권에서 활용할 만한 분야가 많을 것 같다.

지금이라도 당장 AI를 쓸 수 있는 분야는 위헌 충돌이나 부실 입법 같이 정제가 불필요해 보이는 쪽이다. 다른 예로 작금의 인사청문회 중 윤리 부분에 대한 것은 기계적으로 자동화 시스템 처리해 충분히 대체 가능하다. 정작 청문회에서는 정책 질의로만 일관해도 될 것이다.

사실 우리는 민원서류공화국이라고 불러도 무방할 정도로 민원서류가 많다. 행정망은 민원망이라고 불러도 될 정도다. 다른 나라에서는 존재하지 않는 ‘민원 서류’ 네 글자가 존재하는 이유는 주민번호 때문이다. 일상에서 (주민번호를)늘 쓰면서도 최대 민감 데이터라 법적으로 본인만 사용 가능하기 때문에 민원 분쟁이 많다. 이 무슨 모순인가. 이미 ‘공공재’가 되어버린 그 번호가 우리 족쇄 역할을 하고 있다. 정치권에서는 뇌물이나 사망 사건 등 에 대한 조사도 중요하지만 더 중요한 것은 민원서류 전면 폐지와 주민번호 폐지 혹은 부작용 개선 등 사회제도를 디지털시대에 부합하게 리부팅하는 선진 정치를 모색해야 한다.

●인공지능에 대한 기대감과 함께 두려움도 있다. 교수님은 어느 쪽인가.

현재는 AI가 역할을 발휘할 정도로 하부구조 (데이터)가 갖춰져 있지 않은 상태이기 때문에 두려움도 없고 기대감도 거의 없다. 지금은 생성AI가 사람처럼 문장 형태의 답을 내놓는 것을 보고 감탄사를 연발하고 있지만 그것은 대규모 언어 모델이라고 불리는 자연어 처리 언어 영역이 발전한 결과일 뿐이다.

AI와는 본질적으로 연관성이 없다. 생성AI는 AI 기술과 언어 처리 기술이 결합된 이중 구조의 기술이라고 이해하면 된다. 이런 가운데 AI 전문가들은 AI의 미래가 어둡다는 경고를 때로는 보낸다. 그러나 그런 분석의 한계는 AI의 하층인 데이터라는 세계에 대해서는 AI 전문가들조차도 관심이 없거나 경시하는 풍토에 기인한다. AI 전문가들은 본디 데이터 전문가가 아니다. AI전문가들은 상하 구조 상 AI의 하단에 해당하는 AI 먹잇감인 데이터가 설마 잘못돼 있을 것이라는 생각에는 못 미치고 있다. 데이터 품질이 완벽하진 못하더라도 갖다 쓸 정도는 될 것이라고 막연하게 생각한다. AI 전문가들은 데이터 풀질에 관심을 가질만한 시간적 여유가 없는 까닭이다. 소위 데이터과학자(Data Scientist)라는 사람들조차도 데이터 품질에는 무관심하다.

그러나 실상은 전혀 다르다. 데이터는 진정한 데이터 품질 전문가(Data Guru)의 분석을 거쳐야만 그 가치가 비로소 평가 가능한 것이다. 따라서 데이터에 조예가 부족한 AI 전문가 말을 들을 때는 잘 여과해서 듣는 안목이 있어야 한다. 일반 대중으로서는 누구 말을 무엇을 어떻게 여과해야 되는지 알기가 물론 어렵다. 이 부분은 AI 학계와 데이터 학계의 대립처럼 들릴 수도 있지만 이것은 부인할 수 없는 불편한 진실이다.

●데이터가 잘못돼 있어 결과물 역시 신뢰하기 어렵다고 했다. 어느 정도인가.

AI는 컴퓨터 세부 기술 중 상층 중의 최상부에 속한다. 건물의 경우 하층이 지탱해 주지 않으면 상층이 전혀 버틸 수 없듯이 AI의 하부 구조물이 튼튼하지 않으면 AI는 사상누각처럼 쉽게 무너지게 돼 있다. 다시 강조하지만 그 하부 구조물이 바로 데이터다. 즉 AI는 데이터를 먹고 사는 존재다. 그런데 먹이가 오염돼 있다면 그런 먹이를 취한 AI는 엉터리 환각 결과를 낼 수밖에 없다. 문제는 오늘날 세계에 존재하는 데이터는 사진이나 영상 등을 빼고는 거의 전부 오염돼 있거나 부적법한 형태로 되어 있다는 데 있다. 이 문제를 해결하기 전에는 AI는 무용지물일 수밖에 없다.

●데이터를 AI가 사용하기 좋게 고치려면 어떻게 해야 하나.

AI로 하여금 역할을 하게 하려면 기존의 데이터를 적법한 형태로 고치는 과정을 거친 후에 AI로 하여금 섭취하도록 해야 한다. 그러나 설상가상으로 문제를 더 어렵게 만드는 부분이 있다. 즉, 잘못된 데이터를 고칠 시간이 부족할 정도로 데이터가 물밀듯이 세상 속으로 쏟아져 나오고 있다는 사실이다. 그러니까 데이터는 제대로 적법하게 정제되지 않은 채 쓰레기 같은 데이터가 다시 AI의 먹잇감으로 들어가서 사용되고 그 결과로 다시 엉터리 결과가 나오게 되는 악순환의 고리가 형성되는 것이다. 축구 선수가 놀 마당이 진흙탕이라고 가정해 보자. 경기가 잘 진행되겠는가. 잘 가꾸어 놓은 잔디 구장에서 경기를 펼쳐야 멋진 장면들이 연출될 수 있는 것과 같은 이치다.

●데이터가 제대로 돼 있지 않은 상황에서는 AI 한계도 명확하겠다.

데이터의 주도권은 인간에게만 있고 기계에게는 없다. 여기서 한 가지 확실히 짚고 넘어가야 할 점은 AI는 데이터를 가져다 쓸 뿐 데이터 제작, 즉 새롭게 생산해 내지는 않는다는 사실이다. 만약 AI가 데이터도 만들어낼 수 있다고 주장하는 이가 있다면 그는 데이터 형성 과정에 관한 기초 상식을 전혀 갖추지 못한 무지한 사람이다. 한마디로 데이터 제작은 인간 고유의 영역으로 기계로 대체 불가능한 부분이다. 그래서 인간이 데이터의 주도권을 잡고 있는 한 기술이 아무리 급속도로 발전한다고 해도 기계가 할 수 있는 일은 인간의 제작 속도에 종속될 수밖에 없다.

●그렇다면 AI가 할 수 있는 역할이 제한적일 것 같다.

AI 기술의 등장으로 특히 긴장하는 분들이 많다. 예를 들면 직장에서 내가 하는 일을 AI가 대체하는 날이 조만간 오면 내 일자리가 위협받을 것 아닌가 하는 두려움 같은 거다. 그런데 AI가 영상 분석처럼 또는 이미 나와 있는 숫자들을 기반으로 한 업무, 즉 회계 분석에서 큰 역할을 할 가능성은 농후하지만 회사 제반 업무, 즉 고객 응대 업무, 민원 처리 업무, 생산 업무, 매출 매입 등 영업 업무라든가 마케팅 업무, 기획 전략 분야에서는 데이터의 부적격성 (데이터 품질 면에서) 문제로 AI기술을 도입해 쓴다고 해도 현 단계에서는 어떤 효험을 보기는 어려운 상황이다.

박준규 기자 jkpark@naeil.com

박준규 기자 기사 더보기