오태광의 바이오 산책 <88> 신약 개발용 인공지능의 원리와 문제점 본문듣기
작성시간
관련링크
본문
컴퓨터 기술의 지속적 발전으로 기계학습(Machine Learning)은 스스로 학습하고 개선하는 다층구조로 작동하는 신경망으로 구성된 딥러닝(Deep Learning)이란 인공지능(Artificial Intelligence, AI) 모델이 등장하였다. 인간의 뇌가 작동하는 원리를 모사하여 만들어진 인공신경망(ANN, Artificial Neural Network)은 대량의 데이터로부터 사람이 스스로 학습하는 것처럼 높은 수준의 추상적인 결과를 도출할 수 있어서 물리학, 화학, 생물학. 의약학을 필두로 지금까지는 전문성 때문에 어려웠던 이들 학제 간의 다양한 융합을 능동적으로 할 수 있어서 놀라운 결과를 창출할 수 있게 되었다. 결국, 컴퓨터 공학뿐만 아니라 기계, 로봇, 화학, 식품, 의약학은 물론 경제학, 법학, 금융학, 건축학, 의류학, 서비스업, 제조업 등 전 산업 분야와 예술과 같은 창작 분야까지도 사용이 확장되고 있다. 현재는 인공지능을 전문가가 아닌 일반인이 자기도 모르게 인공지능을 사용하고 있고 심지어 인공지능 사용이 서툰 구세대는 살아가는 데 많은 불편함을 호소하고 있다.
인공지능은 1956년 최초로 John McCarthy가 사용한 후, 급속한 발전으로 현재 진행되고 있는 4차 산업혁명의 주역을 하고 있다. 정보를 인식하고, 학습 및 추론을 하는 컴퓨터 인공지능 시스템을 활용하여 빅 데이터분석은 물론 인체가 느끼는 오감을 체계적인 디지털 인식이 가능하여 다양한 기능을 수행할 수 있고 나아가서는 인간의 논리적인 사고를 모방하여 한층 진보된 결과를 순식간에 만들 수 있어서 인간을 당황하게 한다. 인공지능이 인간 능력에 도전하기 시작하면서 가시화된 것은 체스(Chess) 게임을 특화한 인공지능인 IBM사 “딥 블루(Deep Blue)”가 공식적인 인간과의 체스 경합에서 체스 세계 챔피언(가리 카스파로프(Garry Kasparov))을 이겨서 인공지능의 우수성을 증명하였다.
하지만, 체스는 단순한 수학적 문제 해결로 논리 결정하여 인간의 모든 인지기능을 기반하는 판단에는 당시 인공지능으로는 아주 큰 한계성이 있었다. 그러나 기계 학습(Machine Learning)과 인공신경망이 등장하고 여기에 맞추어 반도체 용량과 컴퓨터 기술의 혁신적 발전은 초고속의 컴퓨팅과 대용량 데이터를 쉽게 저장하는 기반 기술(Platform technology)로 인공신경망을 근거로 한 딥러닝 기술이 개발되면서 인공지능은 급격한 진화를 하게 된다.
Google이 개발한 딥 마인드(DeepMind) 기술로 만든 인공지능 바둑 프로그램은 초기에는 기존의 바둑 기보를 학습한 알파고(AlphaGo)가 바둑의 최고의 프로바둑 기사인 프랑스의 판 후이(Fan Hui) 2단을 “알파고 판(2015)”으로 이겼고, 이어서, 우리나라 이세돌 9단을 “알파고 리(2016)”로 이기면서 인공지능의 우수성을 인정하게 된다. 하지만, 당시, 세계 바둑 랭킹 1위인 중국의 커제 9단을 비롯한 중국 대표 5인(2017)과 단체전에서 기계학습으로 학습하는 것이 아닌 바둑의 원리를 이해하고 스스로 학습하는 방법인 “알파고 마스트(AlphaGo Master)”로 모두 이겨서 그 당시 세계에 가장 강력한 인공지능임을 각인하였다. 이후, 더욱 발전한 강력한 “알파고 제로(AlphaGo Zero)”로 이제 인간과의 바둑 경합은 이제는 의미가 없다는 것을 인간이 인정하게 된다.
체스나 바둑과 같은 전문 알고리즘은 점차 사용범위를 확대하여 인간이 개발하고 있는 학문 분야 중 가장 어려운 분야 중 하나인 기능 단백질의 3차 구조를 예측하는 알파폴드를 2018년 단백질 구조 예측 학술대회(Critical Assessment of Structure Prediction, CASP)에서 획기적 성과를 만들어서 생물학을 비롯한 의학, 약학 분야에 큰 발전을 기대할 수 있었다. 이런 기술은 바이오-화학 분야에 그동안 엄청난 시간과 비용이 드는데도 불구하고 개발 성공률이 지극히 낮은 신약개발과 같은 연구에 혁신적인 발전 계기를 만들었다.
짧은 시간에 적은 비용으로 화합물과 단백질의 구조적인 특징을 파악하여 화학-생물 반응을 시뮬레이션하여 예측되는 기존 및 신물질을 추천할 수 있다. 특히, 알려진 독성물질의 정보 비교로 많은 실험동물의 희생 없이 신약과 같은 고기능의 의약품을 확보할 수 있게 되었다. 20세기에 개발된 대부분(약 90%)은 화학적으로 합성된 작은 분자 화학물질이었는데 낮은 특효성은 부작용의 원인이 되어서 인체 임상시험의 성공 가능성을 낮추고 있어서 신약 개발에 큰 한계점이 되고 있다.
1990년 이후 눈부신 바이오 과학 기술 발전으로 고분자의 생물학적 제제(Biologic)가 질병 표적에 대한 특효 성이 커서 치료제로 많이 개발되었다. 하지만, 신약 개발비용은 2010년 1개 신약을 개발하는데 11억 8,800만 US$인데 비해, 2018년 딜로이트(Delotte)의 보고서에 의하면 한 개 신약 당 평균 R/D 비용이 21억6,800억 US$로 바이오 기술의 획기적 발전에도 불구하고 거의 두 배가 증가한 이상한 결과를 얻었다. 이런 근본적인 문제를 해결하기 위해서는 신약 개발의 정확성, 예측성을 높이고, 개발 속도를 빠르게 한다면 적어도 1/3가량의 비용이 감소시킬 수 있다고 한다. 이런 비효율성으로 일어나는 속도 및 비용을 절감하기 위해서는 반듯이, 인공지능 사용이 필요하다. 예측의 정확도를 10%만 증가시켜도 수십억 US$ 이상의 비용이 절감되어서 최종 소비자인 환자에게도 저렴하게 공급할 수 있을 것이다.
하지만, 대부분의 최신 개발된 획기적 바이오 기술이 윤리 문제에 많은 어려움이 있듯이 인공지능을 이용한 신약 개발도 시간/비용을 획기적으로 줄일 수 있지만, 생명윤리 문제에 철저한 검토가 필요하다. 특히 신약 개발하는 알고리즘을 거꾸로 하면 약을 만드는 것이 아니라 희대의 독성물질을 만들 가능성이 있다. 간단한 예로 인공지능이 사용하는 2진법은 0, 1의 2개의 숫자만 사용하기 때문에 0과 1을 바꾸면, 곧바로 반대된 방향의 결과를 얻을 수 있다는 가능성에 대해서 간과하지 말아야 한다. 특히, 인간이 제공하는 데이터가 바르지 않다면, 끔찍한 재앙이 발생할 수 있고, 인공지능을 사용할 수 있는 사람은 누구나 사용할 수 있다는 위험성의 해결은 생명윤리의 철저한 교육과 관리에 있다고 생각한다.
<인공지능을 활용한 신약 개발 개요>
인공지능은 인간이 할 수 있는 사고, 학습, 추론 등의 행위를 컴퓨터가 모방하는 과정을 실현하는 기술을 의미하고, 이런 인공지능의 특성을 활용하여 신약 개발 시 임상데이터와 신약 개발에 필요한 인공지능 알고리즘은 기계학습(Machine Learning)의 일종인 딥러닝(Deep Learning)을 사용하여 학습 과정의 예시되는 방대한 연구자료, 병원 진료 기록 등의 빅데이터를 분석하여 만들어진 일반적 규칙을 독립적 인공신경망을 구축하여 혁신적 신약 후보 물질을 도출할 수 있다. 인체 독성문제를 해결하고 약의 효능을 예측할 수 있는 인공지능으로 신약 개발과정을 안정적이고 효율성을 높여서 개발시간과 비용을 줄일 수 있어서, 신약 개발 성공률도 획기적으로 높일 수 있을 것이다.
인공지능을 활용한 신약 개발은 우선 신약 개발 연구개발 시간을 기존의 10~15년 개발기간을 7년 정도로 단축할 수 있고, 전체 개발비용도 기존의 2조~3조 원인데 비해, 약 6,000억 원으로 절감할 수 있다. 가장 근본적 문제점은 엄청난 연구 기간과 비용에도 불구하고, 성공확률이 아주 낮은 8% 정도라는 점이다. 신약 개발 시 인공지능을 활용하면 <그림 1.>에 보는 바와 같이 후보물질 도출단계에서 인공지능으로 100만 건 이상의 논문을 빠르게 탐색을 할 수 있어서 여기에 드는 시간과 인건비를 줄일 수 있다. 임상 시험단계에서도 후보 신약의 구조 정보와 생체 내 단백질 결합력을 고려해서 예비신약후보물질을 제시하고 약물 상호작용을 예측하여 임상 단계를 설계하여 시행착오를 줄일 수 있는 것은 물론, 최적의 임상 대상 환자군을 선정하여 임상시험 성공률을 높일 수 있게 된다.
다국적 기업인 로슈( Roche, 스위스), 얀센(Janssen)과 화이자(Pfizer,미국), 바이엘(Bayer,독일)은 이미 인공지능 플랫폼 기업과 협력하여 인공지능 신약 개발을 도입하였고, 국내에도 유한양행, 한미약품, CJ헬스케어, JW중외제약 등 많은 제약사가 자체 인공지능기술을 도입하거나 인공지능 플랫폼 전문기업과 협력으로 인공지능 신약 개발에 적극적으로 참여하고 있다. 글로벌 마켓 인사이드(Global Market Insights)라는 시장 전문기관에 따르면 인공지능 이용 신약 개발 시장규모가 매년 40% 성장하여 2024년에는 약 40억 US$(4조 7,500억 원)으로 전망된다.
<신약 개발 인공지능의 기본원리>
신약 개발을 하려면 질병을 일으키는 표적이 되는 자물쇠(질병 표적)와 자물쇠를 열 수 있는 열쇠(신약 후보)를 선정하는 방식으로 설명한 딜로이드(Deloitte)의 2019년 “© 2019. For information, contact Deloitte Anjin LLC & Deloitte Consulting” 참고하여 설명하면 <그림 2>와 같이 나타난다.
신약 개발은 질병의 원인이 되는 표적인 자물쇠에 가장 잘 맞는 열쇠(신약)를 찾아서 잠겨있는 자물쇠를 열어서 질병을 고치는 약을 개발한다는 것을 <그림 2.>에서와 같이 전체 5개 단계로 설명하고 있다. 첫 번째 단계인 질병 표적 파악은 신약으로 사용할 수 있는 여러 종류의 열쇠인 후보 신약 물질과 질병 관련되는 기존으로 알려지거나 새로운 표적(바이오마커)을 찾아야 하는데, 수많은 각종 관련 논문, 특허, 서적 등의 많은 문헌을 확보하고 인지할수록 성공확률이 높다. 이 경우 인간의 검색 능력은 인공지능과 비교할 수 없이 낮다. 두 번째 선별은 자물쇠에 열쇠가 맞는지 찾는 과정인데, 한 개 한 개씩 맞추어 검토하여 찾는 과정인데, 이미 기존으로 개발되어 있는 열쇠(기존 후보 약물)를 자물쇠(질병 표적)에 끼워서 맞아서 반응하는지, 맞지 않아서 반응하지 못하는지를 구분한다. 세 번째는 우수한 열쇠를 디자인하는데 이때는 많은 기존 열쇠(약물)를 자물쇠(질병 표적)에 맞추어가면서 가장 완벽한 열쇠를 디자인한다면 신약을 새로이 설계할 수 있다. 네 번째는 신약 후보 선정은 열쇠(신약)를 자물쇠(질병 표적)에 완벽하게 맞는 구조를 만들기 위해서 인공지능으로 최적화하여 가장 적합한 열쇠를 찾는 최적화 과정이다. 다섯 번째는 최적화된 열쇠(신약)를 살아있는 자물쇠(인체 질병 표적)에서 작동하는지를 사전 임상시험을 한다.
이런 5가지의 신약 선정과정을 인공지능이 계속 적으로 작업하고 잘못된 부분을 보완하면 짧은 시간에 적은 비용으로 신약 개발이 가능할 것이다. 동시에 자물쇠(질병 표적)에 해당하는 표적도 많이 발견되고, 열쇠와 자물쇠의 결합과정에서 발생하는 수많은 결과와 최적화 단계에서 생기는 수없이 많은 열쇠에 대한 정보가 빅데이터로 만들어져서 차후에 활용할 수 있다. 이뿐만 아니라 저분자 또는 고분자의 열쇠에 해당하는 신약 후보도 우수한 신약 후보를 선정하기 위해서 인공지능으로 부단히 만들어지면 인공지능도 빠른 속도로 진화하여, 점차 더욱 빠른 속도로 신약 개발이 가능해질 것으로 판단한다.
결론적으로는 빅데이터/인공지능기반 질병 표적(자물쇠)과 약물 설계로 후보 약물(열쇠)을 도출하여야 하고, 인공지능 기술로 결과에 대한 예측 시스템 개발이 필요할 뿐만 아니라 데이터 확보/분석/표준화/시각화한 빅데이터 구축 및 고성능 클라우드 플랫폼 구축은 기본적으로 필요하다. 인공지능을 구축하는 인프라 완성과 올바른 데이터를 선정하여 규격화하는 작업은 매우 중요하다.
<생성형 인공지능(Generative Artificial Intelligence)>
인공지능 개발 초기는 이미 작성되어 있는 빅데이터를 이용하여 학습(기계학습. Machine Learning)하는 딥러닝(Deep Learning)과 같은 인공지능(Artificial Intelligence, AI) 모델이 이미지, 텍스트, 기타 미디어를 통계학적으로 가까운 결과를 중심으로 생성하는 인공지능 시스템이다. 이에 비해, 생성형 인공지능은 입력되는 데이터의 패턴과 구조를 만든 다음 유사한 특징이 있는 새로운 데이터를 인공지능이 만들어 낼 수가 있다. 현재, 가장 널리 알려진 생성형 인공지능은 ChatGPT, 챗봇 등이 있고, 예술, 작문, 소프트웨어, 의료, 금융, 마케팅, 패션을 포함한 산업 분야에서도 응용되고 있다. 생성형 인공지능 오용의 예로는 사람을 속이기 위해서 만든 가짜뉴스나 딥페이크 등은 건전한 사회를 만드는데 우려가 크다는 것을 경험하고 있다. 수천만 개의 화학, 생물, 약물, 의료데이터가 확보되면 생성형 인공지능을 작동하여 유사한 수많은 결과를 만들어진다면 디지털 바이오로지(Digital Biology)분야 혁신이 일어날 것이다.
생성형 인공지능 혁신이 일어난다면 다가오는 미래에는 생성형 인공지능이 원하는 화합물과 단백질 구조를 만들어 낼 것이고 이렇게 되면, 인공지능 기반 신약 개발이 빠른 속도로 우리에게 가시화되어서, 신약 개발이 더욱 빠르고, 저렴한 비용으로 가능할 뿐만 아니라 신약 개발 성공률도 높일 수 있을 것으로 판단한다. 생성형 인공지능이 등장하기 전과 후를 비교하면, 기존의 데이터 처리방식이 인공지능 시스템이 규칙 기반, 통계적 방법을 단순하게 사용한 데 비해, 딥러닝과 같은 고급형 알고리즘을 사용하여 복잡한 데이터 패턴을 처리하여 새로운 내용을 생성할 수 있다는 점이 크게 다르다. 또한 기존 인공지능의 응용 분야는 데이터분석, 예측모델링, 자동화 고객 서비스와 같은 단순 작업에 국한되어서 입력에 대해 미리 정의된 입력에 대해서 출력한 데 비해, 생성형 인공지능은 예술, 디자인, 음악 작곡 등과 같은 창조적 작업에 사용하고 있고 개인 위주 콘텐츠 생성, 실시간 언어 번역, 가상 인물 생성과 같은 새로운 응용 분야도 가능하다.
창조성과 혁신은 생성형 인공지능 이전은 인간 능력을 모방하는 것과 같이 창의성이 부족하여 새로운 아이디어와 내용 자동 생성은 제한적인 데 비해, 생성형 인공지능은 인간의 창조적 과정을 모방하고, 인간이 생각하지 못하는 새로운 아이디어와 디자인을 제안할 수 있고, 창조적 작업의 가능성을 확장할 뿐만 아니라 새로운 혁신과 예술을 생성할 수 있다. 즉, 생성형 인공지능의 등장은 과학 기술, 예술 등 사회 전반에 폭넓은 변혁을 가져와서 인공지능이 단순한 자동화 기계를 넘어서 인간의 창조적 파트너로 가능성을 보여주고 있다. 생성형 인공지능은 신약 개발에서도 다양한 빅데이터를 디지털화하여 정밀하고 표적화되어 있는 데이터 수를 획기적으로 늘어나면서 특정 병리적 특성이 있는 질병을 다룰 수 있는 신약 후보의 도출이 가능하다. 다양한 질병 원인에 대한 작용기전이 취합되면서 약물에 대한 다양한 MOA(Mode Of Action)를 생성할 수 있어서 질병에 대한 높은 수준의 지식이 늘어난다.
이런 결과로 더 많은 질병 치료가 가능해지고, 효과적인 치료법이 없는 질병도 치료하는 방법을 생성시킬 수도 있다. 산학연관의 협력으로 신약 개발에 대한 더 여러 가지 지식 자료가 보강되면, 2030년부터는 가상환경에서도 신약 개발이 진행될 것이고 신약 선별에서 사전임상까지 걸리는 기간도 불과 몇 달로 단축될 수 있고, 가능성이 있는 새로운 약품 후보들을 점차 더 저렴한 비용으로 설정할 수 있어서 현재와 같이 엄청난 가격의 단백질 신약도 합리적인 가격으로 환자에게 제공할 수 있는 날을 기대할 수 있다. 이런 생성형 인공지능에 의한 신약 개발은 정밀 의료가 주류가 될 수 있는 상황을 제공하여 향후, 10년 이내에 치료 옵션, 질병 경과 예측은 물론 현재에 없는 새로운 치료법도 제공하게 될 것으로 생각한다.
결국 건강산업 생태계를 저렴한 가격으로 개인화(Personalized) 의학, 예측적(Predictive) 의학, 예방(Preventative) 의학뿐만 아니라 환자, 의사가 함께 의사를 결정하는 참여적(Participatory) 의학을 실현하는 4P의 의학 기술도 생성형 인공지능 기술로 가능하여 결국 환자는 적절한 시간에 적절한 처방을 받아서 완치율이 아주 높은 미래형 의료기술의 혜택을 합리적 가격으로 서비스받을 수 있을 것이다, 하지만, 생성형 인공지능은 초거대 언어 모델(LLM)은 인종, 성별, 능력, 언어, 문화 등에 대한 유해 언어 또는 편향된 콘텐츠를 포함할 수 있어서 출력 결과가 편향되거나 부적절한 경우가 많을 수 있을 것이라는 걱정도 크다. 따라서 이런 위험한 가능성은 인공지능 전반에 대한 도전과제이기도 하다. 새로운 것으로 창조되었다고 긍정적인 생각하는 생성형 인공지능이 출력 결과에 훨씬 많은 문제가 있다는 보고(2023 생성형 AI 시장 전망 보고서(옴디아제공))가 여전히 있지만, 더 많은 연구를 통해서 생성형 인공지능의 문제점을 극복하여 인류에게 도움이 되는 판단이 가능한 지능형 생성형 인공지능이 개발되기를 기대한다.
<맺 는 말>
인공지능으로 미래의 신약을 만드는 방법으로 질병 표적이란 자물쇠 구조를 이해하고, 여기에 맞는 신약이란 열쇠를 찾는 것을 쉽게 이해하는 방안으로 설명하지만, 자물쇠와 열쇠가 우리가 흔히 사용하는 자물쇠나 열쇠처럼 간단하지 않고, 조금만 환경이 바뀌어도 쉽게 변하여 맞던 열쇠도 자물쇠에 맞지 않을 수 있어서 쉽지는 않다. 우선, 질병의 표적이 되는 자물쇠인 고분자 단백질의 3차 구조가 결정이 불과 10여 년 전만 하더라도 정말 어려운 숙제였다. 그 당시는 단백질 입체 결정을 만들고 X-선 회절 방법으로 구조를 결정했는데, 심지어 몇 개월이 걸려도 단백질 입체 결정을 만들지 못해서 아예 X-선 회절조차도 못 하는 경우가 많아서 아예 과학이 아니고 예술이란 표현을 한 경우도 많았다.
하지만, 이제는 비교적 쉽게 최근 구글에서 개발한 DM21(DeepMind 21), 알파폴드와 같은 기계학습기반의 화합물(신약 후보)과 단백질(질병 표적 리간드)의 3차 구조분석을 하는 프로그램 개발로 신약 개발에 유용하게 사용하고 있다. 딥 마인드(DeepMind)사는 2018년 단백질 구조 예측 프로그램인 알파폴드를 공개했는데, 단백질 데이터베이스(PDB)에 공개된 170,000개 이상의 단백질 정보를 인공지능에 학습시켰어 만들어 이제 350,000개 이상의 단백질 구조를 예측할 수 있다, 알파폴드가 처음 출시되었을 시 단백질 구조를 분석하기 위해서는 1∽2주의 시간이 필요했는데, 지금은 불과 수 분 만에 단백질 분석을 완료할 수 있었다. 특히, DM21 인공신경망 모델에서 학습(Learning)하는 데는 방대한 데이터와 컴퓨터 성능이 필요하지만, 데이터 학습 후는 해당 프로세스는 한 번만 수행하면 일반 노트북으로 가능하여 기존의 DFT 방식보다 비용/시간을 많이 감소할 수 있다. 차후 분자 구조 이외에 화학 재료의 결정구조를 결정할 수 있다고 하여 신약 개발 속도를 더 높일 수 있을 것이다.
현재는 컴퓨터 기반 신약 개발(Computer-Aided Drug Design,CADD)은 후보 약물 발굴과 활성 평가에 많이 사용되고 있지만, 인공지능 기반 신약 개발로 질병 표적 단백질에 대한 정확하고 빠른 신약 후보 물질을 개발하여 전임상 이전 단계에 시간/비용을 획기적으로 줄이고 있다. 예로 주)Insilico는 약물 스크리닝부터 약물 후보군 도출을 불과 46일 만에 성공한 예가 있고 질병 표적 단백질 선정부터 전임상 연구 전 단계까지 18개월 만에 성공한 예가 있다. 정말 이세돌 9단과 “알파고 이”가 바둑을 둔 2016년에는 인공지능이 재미있는 게임이라고 생각하고, 인간이 인공지능에 바둑을 졌을 때 모멸감을 느꼈지만, 그렇게 중요하게 피부로 느끼지는 않았는데 이제는 그렇지 않다. 신약 개발에 사용하는 인공지능은 그 어렵다는 단백질 구조도 불과 몇 분 만에 결정하고, 생성형 인공지능은 창의적인 일을 할 수 있다니까 과학발전은 이세돌 9단이 알파고와 대결한 지 불과 8년 만에 상상하기 어려울 정도가 빠르게 진화하고 있다는 것을 알 수 있다. 하지만, 생성형 인공지능은 유해 언어 또는 편향된 콘텐츠를 포함할 수 있는 데이터로 나쁜 의도로 훈련될 수 있어서 출력 결과가 편향되거나 부적절한 경우가 많다고 하면서 가짜뉴스를 예로 들 때 결국 인공지능이 문제가 아니고 사용하는 사람이 문제가 된다는 생각에 답답하고 암울한 생각이 든다.
<ifsPOST>
댓글목록
등록된 댓글이 없습니다.