금요진단
챗GPT-4o, 챗GPT-o1의 해답을 믿어도 되나
이제는 많은 사람들이 알고 있듯 거대언어모델(LLM) 인공지능(AI)은 ‘틀린 말을 매우 그럴 듯 하게 하는’ 환각문제를 안고 있다, 이러한 환각을 극복하기 위해서 검색증강생성(RAG, Retrieval-Augmented Generation)이라는 기술도 활용되고 있지만 아직까지는 이런 정도의 접근법으로는 환각을 완전히 극복했다고 할 수 없는 수준이다.
그런데 챗GPT-4o, 챗GPT-o1 등을 사용해본 사용자들의 체감이나 언론보도를 보면 환각문제가 점차 해결되어 가고 있는 것처럼 느껴진다. 불과 1년도 걸리지 않은 기간 내에 4o나 o1의 성능이 비약적으로 발전했고 이전에는 오답을 양산하거나 환각을 이야기하던 AI가 이제는 거의 비슷한 난이도의 문제들에 대해서도 일반 사람의 평균보다 높은 정답률을 보여주며 이제는 환각을 더 이상 말하지 않는 것처럼 느껴진다. 특히 인간의 사고력을 테스트하는 시험문제를 4o나 o1에게 던져주면 문제를 꽤 잘 풀어낸다.
깜짝 놀랄 정도의 정확도는 학습 결과
하지만 이는 LLM이라는 모델의 성능을 획기적으로 향상시킨 방법론이 발견되었기 때문이 아니라 최근 들어 신규 데이터를 더욱 많이 학습했기 때문이다. 대부분의 사람들 심지어 각 분야의 전문가들조차도 4o나 o1에게 자기 전공 분야의 어려운 질문을 하고 이들이 정답을 도출하는 것을 보고 놀라지만, 이는 사실 전문가들이 공부했던 각종 교과서와 논문들을 LLM도 똑같이 학습을 했기 때문이다.
특히 불과 며칠 전 새롭게 출제된 문제들도 4o나 o1에 물어보면 정답을 잘 알려주는데 이 또한 그 사이에 이들이 새로운 문제들과 답을 이미 학습했기 때문이다. 인터넷으로 연결된 디지털 자료가 있으면 그 형태가 무엇이든 아무리 길어도 이제는 수시간에서 수일 안에 AI가 학습해버리는 수준에 다다른 것이다. 심지어 어떤 전문가가 창의력을 발휘해 좋은 문제를 만들어서 LLM에 물어 보면, 묻는 순간 그 문제와 질문 자체가 LLM에게는 또 하나의 학습용 데이터가 되어버린다.
그래서 LLM의 가장 최신 버전인 4o나 o1의 성능을 알아보기 위해서 테스트를 준비하는 사람은 자신이 테스트해 볼 문제가 이미 온라인 상에 있거나, 다른 사람이 이미 질문을 해 보았는지를 철저히 점검해야 하는데 이는 사실상 불가능하다. 자기가 알고 있는 매우 어려운 문제를 4o, o1에 출제했는데 정답을 술술 풀어낸다면 이는 이들이 진짜 사람처럼 사고력이나 추론에 기반해서 문제를 푼 것이 아니라 이미 외우고 있던 문제와 정답을 마치 지금 막 진짜 생각을 해서 풀어낸 것처럼 훌륭한 연기를 펼치는 것이다. 전문가들이 생각하는 고난도 문제들은 알고 보면 대부분 교과서나 논문 등을 통해서 공부한 것들이고 이런 문제들이야말로 이미 학습한 LLM에게는 오히려 쉬운 문제가 되어버린다.
이에 2025년 1월 9일 아침 필자는 즉시 만들어낸 문제인 ‘f(x)=xsin(x)ln(cos(x2)tan2(x))를 x에 대해 미분한 도함수를 구한 다음 이 도함수가 0이 되는 x값을 수치해석을 이용해서 찾아달라’고 4o, o1에게 각각 질문했다. 두 모델 모두 꽤 장황한 설명을 도출하고 각 단계별로 매우 자세하고 친절한 설명을 해 주었지만 최종적으로 제출한 둘의 서로 다른 해답 모두 완전히 틀린 엉터리 답들이었다.
또 필자가 즉시 만든 ‘842807824166411824019254280262676432174라는 숫자보다 크면서 가장 가까운 소수(Prime Number)를 찾으라’는 문제를 4o, o1에 출제했더니 또 서로 다른 답을 제시했다. 사실 이 문제의 해답을 구해내는 방법이 파이썬 코드로도 이미 많이 존재하기 때문에 필자가 LLM에게 정답을 기대하면서 출제한 문제였다. 두 모델은 각각 파이썬 코드를 호출해 문제를 풀어서 답변을 제출했지만 4o가 제출한 답은 정답이었고, 4o보다 추론을 더 잘한다고 자랑했던 o1이 제출한 답은 명백한 오답이었다. 심지어 o1이 제출한 숫자는 아예 소수가 아닌 합성수였다.
언뜻 보면 해결되고 있고 조만간 해결책을 찾을 것으로 기대됐던 LLM의 환각제거 성능은 실제로는 실시간 학습능력 향상에 따른 것으로 ‘이미 알고 있는 문제를 처음 본 양 추론으로 풀어내는 듯 펼친 멋진 연기’였을 뿐 근본적인 해결에 이른 것은 아니었다.
오픈AI 벤치마크에 의하면 낙제수준
원래 AI는 컴퓨터에서 돌아가기 때문에 그 정확성에 대해서는 별로 걱정도 않고 신경도 쓰지 않았다. 특히 ‘기호연산 인공지능’에서는 해답이 주어진 시간 안에 도출되는 경우라면 도출된 해답의 정확성에 대해서는 누구도 의심하거나 걱정하지 않았다. 하지만 ‘기호연산 인공지능’은 사람처럼 느껴지지 않는다는 것이 큰 문제였는데, 이제는 사람처럼 느껴지는 LLM이 개발되었지만 이번에는 거꾸로 그 답변의 진위가 의심스러운 현상이 발생하는 것이다.
이처럼 최근 들어 LLM의 성능한계에 대한 우려가 나오기 시작하자 ‘허깅페이스’는 ‘라이트이벨’이라고 불리는 인공지능 평가도구를 발표했으며 오픈AI도 ‘심플QA’라는 인공지능 평가용 문항을 공개했다. 심플QA는 과학 정치 대중문화 예술 등 다양한 분야에 걸친 4326개의 질문으로 구성된 평가도구다.
심플QA의 질문은 다음과 같이 단순한 내용으로 구성된다. ‘타이타닉호가 침몰한 연도는?’ ‘미국 초대 대통령은 누구인가?’ ‘금의 화학 기호는?’ ‘태양계의 행성은 몇 개인가?’ ‘프랑스의 수도는?’ ‘세계에서 가장 긴 강은?’ ‘모나리자를 그린 사람은 누구인가?’ ‘첫번째 해리포터 책의 제목은?’ ‘CPU는 무엇의 약자인가?’ ‘컴퓨터의 아버지로 불리는 사람은 누구인가?’ 등이다.
오픈AI는 ‘심플QA’를 이용해서 실제로 벤치마크를 시행했다. 이 벤치마크는 LLM에 동일한 질문을 100번 던지고 얼마나 일관된 답변을 제공하는지를 확인한다. 오픈AI의 새로운 GPT-o1 모델은 42.7%의 성공률을 기록했고, GPT-4o는 38.2%, 더 작은 GPT-4o-미니(mini)는 8.6%에 그쳤다. 앤트로픽의 클로드3.5-소네트 모델은 28.9%였다. 이들 모델은 학점으로 따지면 F를 받았으며 정답보다 오답이 더 많았다.
자기 전문 영역에선 활용, 문외한엔 비추
그렇다면 우리는 LLM 문제가 완전히 해결될 때까지 기다리는 게 좋을까? 전혀 그렇지 않다. 만약 안 써본 사람들이 있다면 4o, o1을 꼭 써보기를 강력 추천한다. 실제로 사용해 보면 이들은 생각보다 훨씬 훌륭하고 편안한 방식의 검색도구이자 백과사전이자 만물박사이자 개인비서라는 느낌이 들 것이다.
다만 아마존 AWS의 디렉터가 추천한 방식처럼 자신의 전문 분야에서는 매우 적극적으로 활용하고, 직접 전문 분야는 아니지만 자신이 조금 공부하면 곧 바로 이해할 수 있는 분야에도 활용하고, 자신이 문외한인 분야에는 활용하지 않는 방식이 좋은 전략이 될 수 있다.
그럼에도 불구하고 자신이 문외한인 분야에서도 LLM을 적극 활용하고 싶다면 반드시 이와 동시에 사용해야 할 최고 수준의 AI 서비스가 또 존재한다. 심지어 이 AI는 인공신경망이 아닌 전통의 기호연산방식의 AI이다. 이는 바로 울프람알파와 그 기저 기술인 매쓰매티카다. 이들이 도출하는 답은 거의 99.99… % 이상의 신뢰도로 믿을 수 있다. 기호연산방식의 추론에 의존하고 철저하게 검증된 지식베이스를 기반으로 하기 때문이다.
하지만 울프람알파의 사람 언어 이해도는 좀 낮은 수준이어서 원래 질문에 대한 답이 아닌 다른 질문에 대한 환각없는 정확한 답을 주곤 한다. 그래서 4o, o1과 같은 LLM과 울프람알파를 통합해 보려는 시도도 진행되고 있지만 필자의 체감으로는 이들의 통합이 아직까지 만족스럽지 않다. 대신 4o, o1, 울프람알파를 각각 사용해서 사람이 직접 결과를 취합 선별하는 방식이 필자가 찾아낸 매우 만족스러운 사용법이다.
이해성
내일e비즈 CTO/부사장