AI 학습데이터 곧 고갈 … 발전 둔화되나

2024-07-31 13:00:01 게재

2028년 인터넷데이터 소진 전망 … 이코노미스트 “지속가능 데이터 찾는 게 과제”

2006년 미국 일리노이대 재직중이던 컴퓨터공학자 페이페이 리(현재 스탠포드대 재직)는 인터넷데이터 마이닝으로 인공지능(AI) 연구를 진전시킬 방법을 알게 됐다. 언어학 연구를 통해 8만개의 ‘명사 동의어 뭉치’, 즉 같은 종류의 사물을 설명하는 동의어 그룹 ‘신셋(synsets)’을 발견한 것.

리 박사는 인터넷에 있는 수십억개 이미지가 각 동의어 집합을 설명하는 사례를 제공해야 한다고 생각했다. 이를 충분히 모으면 현존하는 그 어떤 것보다 강력한 AI 훈련자원이 될 수 있기 때문이다. 그는 “많은 사람들이 모델에 주목하고 있다. 이제는 데이터에 주목해야 할 때”라고 말했다. 그 결과 탄생한 것이 대규모 시각적 데이터베이스인 ‘이미지넷(ImageNet)’이다.

인터넷은 이미지뿐만 아니라 이미지에 라벨을 붙일 수 있는 리소스도 제공했다. 검색엔진이 개나 고양이, 의자 등으로 추정되는 사진을 제공하면 아마존 크라우드소싱 서비스인 ‘미캐니컬 터크(Mechanical Turk)’를 통해 모인 사람들이 이 이미지들을 보고 주석을 달았다.

그 결과 엄선되고 검증된 수백만개 이미지가 담긴 데이터베이스가 탄생했다. 2012년 알렉스넷(AlexNet)이라는 프로그램은 이미지넷 자료 일부를 학습에 사용하면서 ‘딥러닝’의 잠재력을 보여줬다. 이것이 바로 AI 붐의 시작이었다. AI에 학습데이터를 제공하기 위한 라벨링산업이 태동했다.

이후 개발된 대규모언어모델(LLM) 역시 인터넷데이터에 의존했다. 하지만 방식은 달랐다. LLM 훈련은 이미지 내용을 설명하는 단어를 예측하는 것이 아니라 텍스트에서 잘라낸 단어가 무엇인지 주변의 다른 단어를 기반으로 예측하는 것이다.

이러한 종류의 학습에는 더이상 라벨이 달린 선별된 데이터가 필요하지 않다. AI시스템은 ‘자기지도학습(self-supervised training)’이라는 프로세스를 통해 단어를 추측하고 답을 채점할 수 있다. 하지만 방대한 데이터가 필요했다. 학습 텍스트가 많을수록 더 나은 결과를 얻을 수 있기 때문이다.

이코노미스트 최신호는 “인터넷은 수백조개 단어의 텍스트를 제공한다. 이는 무작위로 퇴적된 탄소가 현대산업에 필수적인 석유로 정제된 것과 비슷한 역할을 한다”고 전했다.

AI의 데이터 욕구, 인터넷이 충족 못해

하지만 텍스트에 대한 AI 모델의 욕구는 인터넷이 따라잡을 수 없는 속도로 커졌다. 리서치기업 ‘에포크AI’는 2028년쯤 인터넷에 있는 고품질 텍스트 데이터가 모두 소진될 것으로 예상한다. AI업계에서는 이를 ‘데이터 장벽(data wall)’이라 부른다. 이 장벽을 어떻게 극복할 것인지가 AI의 가장 큰 난제 중 하나다. AI 발전을 늦출 가능성이 다분하다.

한가지 접근방식은 데이터의 양보다 질에 초점을 맞추는 것이다. AI 연구소는 단순히 전체 인터넷에서 모델을 훈련시키지 않는다. 데이터를 거르고 순서를 정해 모델 학습량을 극대화한다. AI기업 ‘데이터브릭스’의 나빈 라오는 “이는 시중에 나와 있는 AI 모델 간의 주요 차별화 요소”라며 “세상에 대한 ‘진정한 정보’가 중요한 것과 마찬가지로 ‘추론’ 역시 마찬가지로 중요하다”고 말했다.

예를 들어 학술교과서는 특히 가치가 높다. 하지만 데이터 소스 간 균형을 맞춰야 한다. 또 AI시스템이 다양한 유형의 데이터를 접하는 순서도 중요하다. 학습과정 막바지에 수학처럼 한가지 주제와 관련된 모든 데이터를 한데 모으면 모델이 수학에 특화될 수는 있지만 다른 개념은 잊어버릴 수 있다.

데이터가 다른 형태일 때는 이러한 고려사항이 훨씬 더 복잡해질 수 있다. 새로운 텍스트 데이터가 부족하기 때문에 오픈AI의 GPT-4o나 구글 제미나이 같은 선도적 AI모델은 자기지도학습에 텍스트뿐만 아니라 이미지와 비디오, 오디오 파일도 사용한다.

어떤 모델을 사용하든 소유권은 점점 더 중요한 문제로 인식되고 있다. 학습용 머신러닝에 사용되는 자료는 저작권이 있는 경우가 많다. 동시에 권리자의 동의나 대가 없이 사용되는 경우도 많다. 일부 AI 모델은 페이월(유료구독) 뒤에서 몰래 엿보기도 한다. AI모델 제작자들은 이러한 행위가 미국 저작권법상 ‘공정사용’ 면제에 해당한다고 주장한다. AI 모델도 인간과 마찬가지로 학습할 때 저작권이 있는 자료를 읽을 수 있어야 한다는 것이다.

권리보유자마다 다른 전략을 취한다. 게티이미지는 이미지생성기업 ‘스태빌리티ai’를 이미지 무단사용으로 고소했다. 뉴욕타임스는 수백만건 기사에 대한 저작권침해로 오픈AI와 마이크로소프트를 고소했다. 다른 언론사들은 콘텐츠 라이선스 계약을 체결했다. 월스트리트저널 소유주인 뉴스코프는 5년 동안 2억5000만달러 상당의 계약을 체결했다. 다른 텍스트 및 동영상 소스도 같은 조치를 취하고 있다. 코딩도움말 사이트 ‘스택 오버플로’, 소셜미디어사이트 레딧, X(옛 트위터)는 현재 교육용콘텐츠에 대한 액세스 비용을 청구하고 있다.

국가별 상황도 다르다. 일본과 이스라엘은 자국 AI 산업을 육성하기 위해 데이터 접근을 폭넓게 허용하는 입장을 취하고 있다. 반면 유럽연합(EU)은 일반적인 ‘공정사용’ 개념이 없기에 데이터 접근에 엄격한 상황이다. 시장이 형성된 곳에서는 데이터 유형에 따라 가격이 달라질 수 있다. AI모델이 최신상태를 유지하려면 실세계의 적시정보에 접근할 수 있어야 한다.

또 사전학습 버전인 자기지도학습으로 생성된 버전을 사후학습에서 추가데이터를 통해 개선하면 모델 기능을 향상시킬 수 있다. 예를 들어 ‘감독 미세조정(Supervised fine-tuning·SFT)’은 사람이 수집하거나 직접 만든 질문-답변쌍을 모델에 입력하는 것을 의미한다. 이를 통해 모델에게 좋은 답변이 어떤 것인지 가르친다. 반면에 ‘인간 피드백을 통한 강화학습(Reinforcement-learning from human feedback, RLHF)’은 질문자를 만족시키는 답변인지 여부를 알려준다.

RLHF에서는 사용자가 모델에 출력품질에 대한 피드백을 제공하고, 이는 모델의 매개변수, 즉 ‘가중치’를 조정하는 데 사용된다. ‘좋아요’ 또는 ‘싫어요’ 등 챗봇과 사용자의 상호작용은 특히 RLHF에 유용하다. AI 스타트업들은 사용자가 모델에 어떤 유형의 질문을 하는지 예의주시하며 데이터를 수집해 해당 주제에 대해 모델을 조정하고 있다.

데이터 부족, 사후학습 중요해져

인터넷 사전학습 데이터가 고갈됨에 따라 사후학습이 더욱 중요해지고 있다. ‘스케일ai’ ‘서지ai’ 등 라벨링기업들은 학습 후 데이터를 수집해 연간 수억달러 수익을 올리고 있다. 스케일ai는 최근 140억달러 가치를 인정받아 10억달러 투자금을 유치했다. 미캐니컬 터크 시절과는 상황이 많이 달라졌다. 최고의 라벨러는 시간당 최대 100달러 수입을 올린다. 사후학습이 더 나은 AI모델을 생성하는 데 도움이 되지만 점진적으로 이뤄진다는 한계를 갖고 있다.

데이터 장벽을 조금씩 뒤로 밀어내는 대신 데이터 장벽을 완전히 뛰어넘는 것도 해결책이 될 수 있다. 그중 하나는 기계가 생성한 합성 데이터를 활용하는 것이다. 구글 자회사 딥마인드에서 제작한 ‘알파고 제로’가 좋은 예다. 이 회사의 첫번째 바둑모델은 아마추어 대국에서 얻은 수백만개 경우의 수 데이터로 학습됐다. 반면 알파고 제로는 기존 데이터를 전혀 사용하지 않았다. 대신 3일 동안 490만번의 대국을 스스로 치르며 승리전략을 기록하는 방식으로 바둑을 학습했다. 알파고 제로는 이같은 ‘강화학습’을 통해 수많은 경우의 수를 시뮬레이션하고 승리할 가능성이 가장 높은 대응을 선택하면서 상대방의 움직임에 대응하는 방법을 학습했다.

문제는 이러한 접근방식을 의료나 교육과 같은 환경으로 확장하는 것이다. 게임에서는 승리에 대한 명확한 정의가 있고 어떤 움직임이 유리한지 데이터를 수집하기가 쉽다. 하지만 게임을 넘어선 다른 경우엔 까다롭다. 무엇이 ‘좋은’ 결정인지에 대한 데이터는 일반적으로 전문가로부터 수집한다. 하지만 이는 비용이 많이 들고 시간이 오래 걸린다. 그리고 특정 전문가가 옳은지 그른지 알기 어렵다.

이코노미스트지는 “전문적인 소스에서 선별된 데이터든, 종합적으로 생성된 데이터든, 인간 전문가가 제공한 데이터든 핵심은 AI가 더 많은 데이터에 접근할 수 있어야 빠른 발전속도를 유지할 수 있다는 점”이라며 “원유 유전과 마찬가지로 가장 접근하기 쉬운 데이터 매장량은 고갈되고 있다. 이제 지속가능한 새로운 데이터를 찾는 것이 과제”라고 진단했다.

김은광 기자 powerttp@naeil.com

김은광 기자 기사 더보기