신문로
인공지능과 단백질 구조 계산하기
2024년 노벨 화학상은 생명의 기본 구성요소인 단백질을 이해하고 조작하는데 혁명적인 돌파구를 마련한 학자들에게 돌아갔다. ‘전산 단백질 설계’ 분야에서 공적을 인정받은 데이비드 베이커와 ‘단백질 구조 예측’ 분야에서 공적을 인정받은 구글 딥마인드의 데미스 하사비스와 존 점퍼가 그들이다.
이들의 획기적인 연구는 수많은 생물학적 과정에서 자연의 화학 도구 역할을 하는 단백질을 이해하고 다룰 수 있는 우리의 능력을 혁신적으로 발전시켰다. 이들 연구의 공통점은 바로 자연이 어떻게 20개의 아미노산으로 이루어진 긴 사슬을 비틀고 접어서 복잡하고 유일한 3차원 구조를 갖는 단백질을 만드는지를 ‘계산’을 통해 흉내낼 방법을 찾았다는 것이다. 단백질의 3차원 구조는 단백질의 기능을 결정한다. 이에 따라 어떤 단백질은 근육 또는 깃털을 형성하는 화학적 구성 요소가 되고, 다른 것들은 호르몬이나 항체, 효소가 되기도 한다.
화학자들은 19세기부터 단백질이 생명과정에 중요하다는 것을 알고 있었다. 하지만 연구자들이 단백질을 더 자세히 탐구하기 시작할 만큼 화학적 도구가 정밀해진 것은 1950년대에 이르러서였다.
케임브리지의 연구자 존 켄드루와 맥스 페루츠는 1950년대 말 X선 결정학이라는 방법을 사용해 단백질의 첫번째 3차원 모델을 제시해 1962년 노벨 화학상을 수상했다. 이후 미국 과학자 크리스천 안피센은 여러 화학적 방법을 사용해 기존 단백질을 풀어낸 후 다시 스스로 접히게 했는데, 이 때 단백질이 매번 정확히 같은 구조를 갖도록 접힌다는 것을 발견했다. 이를 통해 그는 단백질의 3차원 구조가 단백질 내 아미노산 배열에 의해 완전히 결정된다는 것을 밝혀내 1972년에 노벨 화학상을 수상했다.
과학자들의 50년 숙원 해결한 AI
하지만 또 다른 미국 과학자 사이러스 레빈탈이 1969년에 지적했듯이 단백질이 100개의 아미노산만 이뤄져 있어도 이론적으로 최소한 우주에 있는 원자 개수보다 많은 3차원 구조를 가질 수 있다. 자연은 이중 단 하나의 구조를 세포 내에서 몇 밀리초 내에 찾아낸다. 이 비밀을 파헤치는 것은 과학자들의 50년 된 숙원이었다.
알파고로 유명한 구글 딥마인드의 데미안 하사비스와 존 점퍼는 아미노산 서열로부터 단백질 구조를 정확하게 예측하는 인공지능(AI) 모델인 ‘알파폴드2’를 개발했다. 이 AI 시스템은 알려진 거의 모든 단백질 구조(2억여개)를 예측함으로써 이 분야를 혁신했으며, 이전에는 수년이 걸리던 작업을 단 몇분 만에 가능하게 만들었다.
알파폴드2는 2020년 열린 단백질 구조 예측 학술대회에서 90%에 육박하는 정확도를 보여주었다. 이는 실험적으로 가능한 최선의 결과와 비등한 수준이어서 학계에서 ‘알파폴드2 쇼크’라고 불리기도 한다. 이들의 연구는 전세계 연구자들에게 귀중한 자원이 되었다. 알파폴드2는 연구자들에게 무료로 공개돼 현재 190개국의 200만명 이상이 사용하고 있다. 알파폴드2는 먼저 챗GPT의 근간이 되는 ‘트랜스포머’ 모델을 통해 아미노산 사이의 3차원상의 거리를 예측하고, 이를 이용해 3차원 접힘 구조를 경사하강법을 이용해 알아낸다.
아미노산 사슬이 어떻게 접히는지를 정확하게 예측할 수 있다면 우리가 원하는 기능과 구조를 갖는 단백질을 만들어낼 특정한 아미노산 서열을 찾아낼 수 있지도 않을까? 이 단백질 설계 분야에서 대부분 연구자들은 기존 단백질을 수정해 위험물질을 분해하거나 화학 제조산업에서 도구로 작동하도록 만들었다.
하지만 자연계의 단백질 종류는 한정되어 있어서 이 방법에는 한계가 있었다. 데이비드 베이커 연구팀은 전혀 새로운 구조를 가진 단백질을 설계한 뒤 로제타라는 소프트웨어를 사용해 원하는 단백질을 형성할 수 있는 아미노산 서열을 계산했다. 이를 위해 로제타는 모든 알려진 단백질 구조가 포함된 데이터베이스를 검색하고 원하는 구조와 유사한 단백질의 짧은 단편을 찾은 뒤 이 단편들을 최적화하고 아미노산 서열을 제안했다. 실험을 통해 이 방법은 실제로 원하는 단백질을 만들어낼 수 있다는 것이 밝혀졌다.
2003년 이를 통해 만들어진 전혀 새로운 ‘Top7’이라는 단백질은 과학자들에게 청천벽력 같은 존재였다. Top7의 독특한 구조는 자연계에 존재하지 않는 것이었기 때문이다.
2020년 알파폴드2 쇼크 이후 베이커의 로제타 프로그램에는 알파폴드2가 추가되어 단백질 설계능력을 향상시켰고, 이후 베이커의 연구실에서는 2021년에는 인플루엔자 바이러스를 흉내내는 단백질을, 2022년에는 분자단위의 단백질 회전자를, 그리고 2023년에는 단백질 센서를 만들어내었다.
단백질 구조 이해가 가져올 편익
단백질의 놀라운 다재다능함은 생명의 광대한 다양성에 반영되어 있다. 이 작은 분자 기계들의 구조를 쉽게 계산하고 시각화할 수 있게 되었다는 사실은 놀랍기만 하다. 이를 통해 우리는 생명이 어떻게 기능하는지, 질병이 왜 발생하는지, 항생제 내성이 어떻게 생기는지, 또는 어떤 미생물이 왜 플라스틱을 분해할 수 있는지 더 잘 이해할 수 있게 되었다.
새로운 기능을 지닌 단백질을 창조할 수 있는 능력도 경이롭다. 이를 통해 새로운 나노 소재, 표적 의약품, 신속한 백신 개발, 미세 센서, 친환경 화학 산업 등 인류에게 큰 이익을 주는 다양한 응용 분야가 열릴 수 있을 것이다.