박재천의 디지털경제 이야기 <47> 노벨화학상 설명(2); 단백질 구조 예측 모델 개발 본문듣기
작성시간
관련링크
본문
안핀센의 발견과 레빈탈의 역설은 단백질의 접힘이 미리 정해진 과정임을 시사한다. 중요한 점은 접히는 방식에 대한 모든 정보가 아미노산 서열에 담겨 있어야 한다는 것이다. 이러한 통찰은 또 다른 결정적인 깨달음으로 이어졌다. 화학자들이 단백질의 아미노산 서열을 알고 있다면, 단백질의 삼차원 구조를 예측할 수 있다는 것이다. 예측문제를 해결한다면 까다로운 X선 결정학을 사용하지 않아도 되고, 엄청난 시간을 절약할 수 있다.
이 같은 논리에 기초하여, 단백질 구조 예측 문제가 생화학계의 위대한 도전으로 자리 잡게 된다. 연구를 촉진하기 위해, 1994년에 연구자들은 CASP(Critical Assessment of Structure Prediction)라는 단백질 구조 예측 대회를 시작했다. 매 2년마다 아미노산 서열을 기반으로 단백질 구조를 예측하는 경쟁이다.
CASP는 많은 도전자들을 끌어들였지만, 단백질 접힘을 예측한다는 문제는 매우 어려운 과제임이 드러났을 뿐이다. 연구자들이 대회에서 제출한 예측과 실제 구조 간의 차이는 거의 개선되지 않았다. 돌파구는 2018년에서야 나타났다. 체스 마스터이자 신경과학 전문가, 그리고 인공지능의 개척자 데미스 허사비스가 이 분야에 발을 들이면서였다.
그는 네 살에 체스를 시작해 열세 살에 마스터 레벨에 도달했다. 십대 시절부터 프로그래머이자 성공적인 게임 개발자로서의 경력을 쌓기 시작했으며, 이후 인공지능을 탐구하기 시작했고 신경과학 분야에서도 여러 혁신적인 발견을 했다. 2010년, 딥마인드를 공동 설립했고, 이 회사는 인기 보드게임을 위한 뛰어난 AI 모델들을 개발해왔다. 2014년, 구글에 인수된 이 회사는 2년 후 세계에서 가장 오래된 보드게임 중 하나인 바둑에서 세계 챔피언(이세돌)을 꺾으며 세계적인 주목을 받았다. 하지만 바둑은 목표가 아니라 더 나은 AI 모델을 개발하기 위한 수단이었다. 그의 팀은 인류에게 더 중요한 문제를 해결할 준비가 되었고, 2018년에 13번째 CASP 대회에 등록했다.
이전 CASP 대회에서 연구자들이 예측한 단백질 구조의 정확도는 최대 40%에 그쳤다. 하지만 허사비스 팀의 AI 모델 AlphaFold는 거의 60%의 정확도에 도달했다. 이 뛰어난 결과는 많은 사람들을 놀라게 했다. 예기치 않은 진전이었지만, 여전히 충분하지는 않았다. 성공을 위해서는 예측이 목표 구조와 비교했을 때 90%의 정확도를 가져야 했다.
허사비스와 그의 팀은 AlphaFold 개발을 계속했지만, 아무리 노력해도 알고리즘은 완벽한 수준에 도달하지 못했다. 막다른 길에 이르러 팀이 지쳤을 때, 새로운 직원인 존 점퍼가 AI 모델을 개선할 수 있는 결정적인 아이디어를 가지고 있었다.
존 점퍼는 우주에 끌려 물리학과 수학을 공부하기 시작했다. 하지만 2008년에 단백질과 그 역학을 시뮬레이션 하는 슈퍼컴퓨터를 사용하는 회사에서 일하기 시작했을 때, 물리학 지식이 의학 문제를 해결하는 데 도움이 될 수 있음을 깨달았다.
점퍼는 새로이 관심을 가지게 된 단백질 연구를 2011년에 이론물리학 박사 과정을 시작할 때 함께 연구했다. 당시 대학에서 컴퓨터 용량이 부족했기 때문에, 그는 단백질 역학을 시뮬레이션하기 위한 더 간단하고 독창적인 방법을 개발하기 시작했다. 2017년에 박사 과정을 막 마쳤고, 그 즈음 구글 딥마인드가 비밀리에 단백질 구조 예측을 시작했다는 소문을 들었다. 그는 딥마인드에 입사 지원서를 보냈다. 단백질 시뮬레이션 경험이 있었던 그는 AlphaFold를 개선할 수 있는 창의적인 아이디어를 가지고 있었고, 팀이 제자리걸음을 하기 시작한 후에는 승진하여 AlphaFold의 개선을 주도했다. 점퍼와 허사비스는 AI 모델을 근본적으로 개혁하는 작업을 공동으로 이끌었다.
새로운 버전인 AlphaFold2는 점퍼의 단백질에 대한 지식을 바탕으로 발전했다. 또한 AI 분야의 혁신 모델인 트랜스포머라는 신경망을 사용하기 시작했다. 트랜스포머는 이전보다 더 유연한 방식으로 방대한 데이터에서 패턴을 찾고, 무엇에 집중해야 할 지를 효율적으로 결정할 수 있었다.
팀은 AlphaFold2를 알려진 모든 단백질 구조와 아미노산 서열 데이터베이스의 방대한 정보로 훈련시켰고, 새로운 AI 아키텍처는 제14회 CASP 대회에 맞춰 좋은 결과를 보여주기 시작했다. 2020년, CASP 주최자들이 결과를 평가했을 때, 그들은 생화학 분야의 50년된 도전 과제가 해결되었음을 깨달았다. AlphaFold2는 놀랍게도 ‘X선 결정학’과 거의 동등한 성능을 보여주었다.
허사비스와 점퍼는 AlphaFold2가 실제로 작동한다는 것을 확인한 후, 모든 인간 단백질의 구조를 계산했다. 이어서 연구자들이 지구의 생물체를 조사하면서 지금까지 발견한 약 2억 개의 모든 단백질의 구조를 예측했다. 또한 구글 딥마인드는 AlphaFold2의 코드를 공개적으로 사용 가능하게 만들었고, 누구나 이에 접근할 수 있도록 했다. 이 AI 모델은 연구자들에게 금광과 같은 존재가 되었다. 2024년 10월까지 190개국의 2백만 명 이상의 사람들에 의해 사용되었다. 이전에는 단백질 구조를 얻는 데 수년이 걸렸고, 때로는 아예 불가능하기도 했다. 이제는 단 몇 분이면 가능하다.
<ifsPOST>
댓글목록
등록된 댓글이 없습니다.