신문로

AI 근친교배와 ‘모델 붕괴’

2024-09-04 13:00:04 게재

최근 생성형 인공지능(AI) 모델들의 급속한 발전으로 인해 GPT나 Llama 같은 대규모 언어모델 (LLM)이나 Dall-e 같은 분산모델을 이용해 생성한 텍스트와 이미지는 사람이 만든 그것과 거의 구분하기 어려운 경지에 이르렀다.

이런 대규모 인공지능 모델을 학습시키기 위해서는 천문학적인 양의 데이터가 필요하다. 많은 학자들은 이르면 2025년에는 학습에 쓸 수 있는 새로운 데이터가 고갈될 것이라는 전망을 내놓는다. 인공지능 모델이나 GPU같은 연산장치들이 계속 발전해 봤자 계속 불을 지필 땔감이 없다는 것이다.

그렇다면 챗GPT 같은 생성형 AI모델로 데이터를 생성해서 학습에 사용하면 될 일이 아닐까? 이미 생성형 AI모델들이 양질의 데이터를 생성해 낼 수 있는데, 구글 딥마인드가 알파고끼리 서로 무한정 대국시켜 학습에 사용한 것 같이 AI가 스스로 데이터를 만들어 자체적으로 향상시킬 수 있도록 하면 되지 않을까?

최근 세계적 권위의 학술지인 네이처에 발표된 한 논문에서 연구진은 차세대 거대 AI 모델이 이전 세대 모델이 생성한 데이터를 기반으로 학습할 때 어떤 일이 벌어지는지 심도있게 연구했다. 연구 결과 인간이 직접 생성한 ‘유기농 데이터’ 대신 AI가 생성한 ‘인스턴트 데이터’를 학습에 무차별적으로 사용하면 세대가 지남에 따라 모델이 원래 학습했던 데이터 분포를 점차 잊어버리고 되돌릴 수 없는 결함이 발생하는 ‘모델 붕괴’라는 퇴행적 과정이 발생한다는 사실이 밝혀졌다.

AI가 생성한 데이터로 학습시키면 생길 위험

이 현상은 아무리 현재 단계의 AI가 인간이 만들어놓은 데이터를 정확하게 흉내낼 수 있어도, 세대가 계속될수록 AI가 데이터 분포의 꼬리 부분, 즉 덜 일반적이지만 중요한 정보들을 잃어버리기 시작하면서 시작된다.

초기에는 이 손실이 미미할 수 있지만 세대가 거듭될수록 이러한 손실은 누적되고 가속화된다. 결국 AI는 점차 원래 유기농 데이터의 다양성과 복잡성을 반영하지 못하게 되고 결과적으로 생성된 다음 세대의 인스턴트 데이터는 매우 제한적이고 단순해지며 더 이상 초기 모델의 풍부한 표현력을 갖추지 못하게 된다.

이러한 모델 붕괴는 크게 ‘통계적 근사 오류’ ‘함수 표현 오류’ ‘함수 근사 오류’라는 세가지 주요 오류에 의해 촉발되며 불과 수세대 이내에 발생할 수 있음이 밝혀졌다. 미국 버클리 대학의 파리드 교수는 이를 마치 같은 종끼리 교배해서 유전적 다양성이 저하되는 ‘근친교배’의 위험성이 AI에서 발생하는 사례라고 꼬집었다.

이와 같은 맥락에서 AI 연구자들과 기업들은 ‘유기농 데이터’의 지속적인 확보를 위해 다양한 전략을 모색하고 있다. 한가지 긍정적인 사실은 연구진은 논문에서 인간이 생성한 데이터의 10%만 사용해도 모델 붕괴의 속도를 크게 늦출 수 있다는 중요한 실험 결과를 제시했다는 것이다. 연구진은 이 실험에서 언어 모델을 여러 세대에 걸쳐 미세조정했으며, 원래의 인간이 생성한 데이터의 10%를 보존하고 학습에 사용했을 때 AI가 생성한 데이터만 사용한 경우에 비해 모델 성능 저하가 훨씬 덜 심각하다는 것을 발견했다.

이 결과는 모델 붕괴의 영향을 완화하고 모델의 일반화 능력을 유지하기 위해 학습 데이터셋에 일부 ‘순정’ 인간 데이터를 포함시키는 것이 중요하다는 점을 의미한다. 하지만 이 방법은 모델 붕괴의 속도를 늦추는 한가지 방법에 불과하다. 결과적으로는 AI 생성 콘텐츠가 온라인에서 점점 더 많이 생성됨에 따라 모델 붕괴의 위험이 커진다. 이는 미래 AI 시스템의 성능과 신뢰성을 저해하는 결과로 이어진다.

이러한 연구 결과는 AI 미래와 관련해 광범위한 함의를 갖고 있다. 최상의 시나리오는 AI 발전이 인간의 창의성을 폭발적으로 증가시켜서 더 다양한 종류의 인간 생성 데이터가 다음 세대의 더욱 발전된 AI를 학습시키는데 쓰이는 선순환이 되는 것이다. 일부 전문가들은 인간 데이터 생성에 대한 보상 시스템을 도입하거나, 새로운 데이터 수집 방법을 개발하는 등 인간의 창의성을 촉진할 수 있는 환경을 조성해야 한다고 주장한다.

인간 데이터에 대한 법적 보호 필요

또한 법적 및 윤리적 관점에서도 AI와 인간이 생성한 데이터의 구분이 중요해지고 있다. AI가 생성한 데이터의 사용을 명확히 표시하고, 인간 데이터가 가진 고유한 가치를 인정하며 보호하는 법적 장치들이 필요하다는 목소리가 높아지고 있다.

이러한 움직임은 AI 발전과 인간 창의성 간의 균형을 맞추어 장기적으로 지속가능한 인공지능 생태계를 구축하는 데 기여할 수 있다.

류한백

위스콘신대 교수, 수학과

데이터과학기초연구소