과학산책

추론형 인공지능, 수능 1등급을 받다

2025-01-07 13:00:47 게재

오늘(1월 7일)부터 대학입시 정시모집 전형이 시작된다. 정시는 수시모집과 달리 소위 수능이라 부르는 ‘대학수학능력시험’의 점수가 가장 중요한 잣대로 사용된다.

수학(修學)능력이란 대학에 입학한 학생이 전공학문을 학습하고, 정해진 교육목표를 성취할 수 있는 역량을 말한다. 문제는 대학의 교육 내용과 목표가 시대에 따라 바뀌고 있고 그에 따라 수학능력의 평가도 바뀌어야 한다는 점이다.

그럼 지금 대학 교육현장에서 일어나고 있는 가장 변화는 무엇일까? 그것은 단연코 인공지능이 일으키고 있는 교육혁명일 것이다.

추론 가능해진 AI 어떤 혁신이 있었나

2024년 9월 미국의 오픈AI사는 새로운 인공지능 o1을 내놓으면서, o1이 미국의 수학올림피아드 대표선수를 뽑기 위한 예비시험 성격을 가진 에이미(AIME)에서 80%가 넘는 답을 맞혔다고 발표했다.

이는 미국 고등학생 중 상위 500등 안에 드는, 올림피아드 대표선수로 선발될 수 있는 훌륭한 성적이었다. 언어는 잘해도 추론이 필요한 수학에선 덧셈조차 제대로 못했던 과거의 챗GPT와는 확연히 다른 결과였다.

o1이 나오기 이전까지 가장 훌륭한 AI였던 챗GPT 4o가 AIME에서 20% 미만의 정답률을 보였던 것에 비하면 퀀텀 점프와 같은 발전이었다.

이뿐이 아니었다. o1은 인공지능 수준을 측정하기 위해 구글이 개발한 GPQA(Graduate-level Google-Proof Q&A Benchmark)라는 대학원 수준의 물리학 화학 생물학 벤치마크 문제도 쓱쓱 풀어내 인간 전문가의 문제풀이 능력을 앞질렀다.

MMLU(Massive Multitask Language Understanding)라는 벤치마크에선 대학 수준의 수학문제를 풀어 만점에 가까운 점수를 얻으면서 인공지능이 추론이 포함된 수학문제에서도 인간의 능력을 앞지른다는 평가를 불러일으켰다.

그럼 추론과정이란 무엇인가? 2022년도에 발표된 논문에 따르면 인공지능 모델에게 천천히 단계별로 문제를 풀라고 요청하는 것만으로도 문제풀이의 정확도가 크게 오르는 것으로 나타났다(https://arxiv.org/abs/2205.11916).

이는 단계별로 문제를 푸는 과정에서 마치 사람이 문제를 적어가면 생각하듯이 추론과정을 거치기 때문이라고 해석되었다.

학자들은 이 추론과정을 ‘Chain of Thought’라고 불렀다. 이는 직역하면 ‘사고의 사슬’이지만 그 내용은 한단계 한단계 생각하면서 문제를 푼다는 것이다. 어찌 보면 인간의 추론방식을 흉내낸 것이라 할 수 있겠다.

오픈AI의 o1 시리즈 모델은 사용자의 명시 없이도 문제마다 적합한 추론과정을 거치도록 학습받았다고 한다. AI의 성능은 모델의 크기에 따라 좌우된다는 것이 AI 학계의 정설이었다.

하지만 o1 시리즈는 단순히 모델의 크기만 중요한 것이 아니라 문제를 풀 때 더 많은 추론과정을 거치게 하는 것도 성능을 끌어올리는 방법이란 것을 보여줬다.

결론적으로 o1은 즉각적으로 답을 내던 기존의 LLM에서 추론이란 단계를 거친 뒤 답을 내는 새로운 인공지능이란 것이다.

대한민국의 수능 수학문제도 풀 수 있을까

우리나라 수능 수학문제는 어렵기로 소문나 있다. 특히 킬러문항이라 부르는 문제가 언론을 통해 소개되면 “대학교수도 풀지 못하는 문제를 고등학생이 어떻게 풀 수 있느냐”라는 비난이 일기도 한다.

그런데 따지고 보면 정작 주어진 시간 내에 못 푸는 것은 대학교수지 킬러문항을 척척 풀어내는 고3 학생은 얼마든지 있다. 그런 면에서 우리나라 고3 학생은 인공지능과 같이 대량의 문제를 집중적으로 학습한 인간 언어모델(LLM)이라 할 수 있다.

현행 수능 수학시험은 총 30문항으로 구성되어 있다. 이중 22개 문항은 공통문제로 지수와 로그, 삼각함수, 미분과 적분 등에 대한 기초적인 수학문제로 구성되어 있다. 나머지는 선택문항으로 확률과 통계, 미적분 그리고 기하 이렇게 3가지 중 하나의 주제에 좀더 심화된 8개의 수학문제로 구성된다.

각각의 공통문항과 선택문항은 문제의 난이도에 따라 적당한 배점이 부여된다. 이로부터 공통문제에는 총 74점이 배점되고 선택문제에는 총 26점이 배점되어, 만점은 100이 되고 이를 통상 원점수라 부르고 있다.

중요한 것은 실제 대학에서 정시를 통해 학생을 선발할 때 이 원점수를 사용하는 것이 아니란 점이다. 정시전형에 반영되는 것은 1등급에서부터 9등급까지로 나뉜 수능시험의 등급이다.

1등급은 상위 4% 이상의 성적을 받은 학생을 말하고 2등급은 상위 11% 이상의 성적을 받은 학생을 말한다. 또 3등급은 상위 23%, 4등급은 상위 40%, 5등급은 상위 60%의 학생이다.

대략의 수능시험 수험생수가 50만명 정도라고 보면 1등급을 받는 학생만 2만명 정도 된다는 것을 알 수 있다.

인공지능이 푼 수능 수학

필자는 공동연구를 통해 2015년도 개정에 의해 2022년부터 시행되어온 수능 수학문제 4년 치를 구해 이를 다양한 인공지능을 써서 풀어보았다. 우리나라의 수능 수학을 가지고 벤치마크를 수행하는 것은 특별한 의미가 있다.

우선 인공지능이 우리나라 수능문제를 학습에 사용하지 않았을 확률이 높다는 점이고, 그중에서도 특히 2025년 수능문제는 인공지능 학습에 사용된 적이 없는 문제가 확실하기 때문이다. 따라서 수능 수학문제를 가지고 수행한 이번 벤치마크는 오픈AI사의 발표를 검증한다는 의미도 있다.

이번 벤치마크에 사용된 인공지능은 클로드AI의 하이쿠(Haiku), 소네트(Sonnet), 오퍼스(Opus)와 가장 보편적으로 많이 쓰이는 챗GPT 4o, 그리고 추론이 가능해진 o1의 3가지 버전인 o1-프리뷰(preview)와 o1-미니(mini), 그리고 o1 정식 버전으로 총 7가지 인공지능 모델이다.

결과부터 공개하면 클로드의 3가지 모델과 챗GPT 4o의 수능 수학실력은 5등급 정도에 머물렀다. 이는 우리나라 고등학생의 평균 등급에 해당하고 공부 잘한다는 소리를 듣기에는 부족인 점수라 하겠다.

반면 o1-프리뷰(preview)는 3~4등급의 실력을 보여주었고 o1-미니(mini)는 2~3등급으로 나타났다. 정식 o1에 비해 단순화된 모델이지만 기존의 챗GPT 4o에 비하면 큰 발전이 있었음을 알 수 있다.

놀라운 것은 o1이었다. o1은 2022년부터 2025년 수능 수학에서, 2024년 확률과 통계 및 기하를 선택한 경우를 빼고는 모두 1등급을 받는 결과를 보여줬다.

이는 우리나라 고등학생 상위 4% 안에 드는 성적이다. 실로 놀라운 성적이라 할 수 있고 오픈AI가 거둔 AIME 성적을 확인해 주는 결과라 할 수 있다.

인공지능이 푼 2022년-2025년까지의 수능 수학성적(확률과 통계 선택). 막대 안의 숫자는 원점수를 나타내고 막대 위의 괄호 속 수치는 등급을 표시한다.

인공지능이 푼 2022년-2025년까지의 수능 수학성적(미적분 선택). 막대 안의 숫자는 원점수를 나타내고 막대 위의 괄호 속 수치는 등급을 표시한다.

인공지능이 푼 2022년-2025년까지의 수능 수학성적 (기하 선택). 막대 안의 숫자는 원점수를 나타내고 막대 위의 괄호 속 수치는 등급을 표시한다.

인공지능 시대의 대학 교육

지난주 열린 한국물리학회 신년회에서는 아주 흥미로운 발표가 하나 있었다. 발표의 주인공은 바로 김필립 하버드대학 물리학과 교수였는데 그가 던진 교육의 화두가 자못 의미심장했다.

김 교수는 하버드대 학생들을 가르치며 학생들의 학습과 평가를 위해 집으로 가져가 푸는 소위 ‘테이크홈 시험(Take-home exam)’을 시행해 왔는데 더 이상 이런 방식의 시험으로 학생을 평가하는 것이 의미가 없다는 결론에 도달했다.

그래서 학생들을 어떻게 평가하고 어떤 학생을 길러낼 것인가를 원점에서 다시 생각해 봐야 한다고 주장했다.

김 교수가 왜 이렇게 생각하게 되었는지는 그 이유가 아주 간단했다. 바로 인공지능 때문이었다. 2년 전 챗GPT가 출시되자 김 교수는 자신이 출제한 Take-home exam을 학생들이 챗GPT로 풀어내면 어쩔지 하는 걱정을 했다고 한다. 그래서 손수 자신이 낸 문제를 챗GPT가 풀게 했는데 그 결과가 얼토당토않다는 것을 알고 안심했다고 했다.

그런데 2년이 채 지나지 않아 세상이 완전히 바뀌고 있다는 것을 실감했다고 한다. 왜냐하면 새로 나온 챗GPT가 Take-home exam을 거의 완벽하게 풀어낸다는 사실을 알았기 때문이었다.

실제로 김 교수가 보여준 슬라이드에는 챗GPT가 가지런히 풀어낸 해답이 있었고 누가 봐도 A+를 줄 수밖에 없는 논리정연한 답안지였다. Take-home exam은 더 이상 좋은 학습방법도 평가방법도 되지 못함을 알 수 있는 순간이었다.

인공지능이 발전하면서 영어 사교육 시장에도 큰 변화가 생겼다고 한다. 인공지능이 훨씬 더 저렴한 가격으로 영어회화를 가르치고 영작문도 도와주고 심지어는 영어논문 수정 및 작성도 도와주고 있기 때문이다.

이제 추론이 필요한 수학이라고 해서 또 과학이라고 해서 인공지능이 할 수 없을 것이란 막연한 생각은 접는 것이 좋겠다.

인간만이 연구하고 가르치는 시대가 저물고 있는 것이다. 어쩌면 학생 개개인에 맞춘 인공지능 교육시장도 열릴 수도 있다. 초중고 공교육뿐 아니라 대학의 전공교육도, 교양교육도, 대학입시도, 이제는 대전환의 시대를 피할 수 없는 시기가 온 것이다.

박인규

서울시립대 교수

물리학