<IT 사랑방> AI라는 블랙박스 너머 “골든게이트”를 발견하다 본문듣기
작성시간
관련링크
본문
AI의 한계는 어디일까? AI는 이미 폭포를 오른 용처럼 급격하게 성장하고 있다. 자연어를 이해하고 생성하는 GPT부터 사진 속 얼굴을 자유자재로 바꿔치기하는 딥페이크, 몇 마디 텍스트만으로 그럴싸한 이미지를 만들어내는 Stable Diffusion에 이르기까지 AI는 이제 SF영화 속에서나 가능할 법한 기술들을 현실로 만들어내고 있다. 우리는 일상 속에서 AI와 마주치는 일이 낯설지 않은 시대를 살고 있다.
그러나 화려한 성과 뒤에는 근본적인 의문이 자리 잡고 있다. AI는 도대체 어떻게 동작하는 걸까? 블랙박스로 불리는 딥러닝 모델의 내부에서는 어떤 일이 일어나고 있을까? 사람의 뇌를 닮은 인공신경망이 정보를 어떻게 처리하고 저장하는지, 수많은 학습 데이터에서 어떻게 유의미한 패턴을 포착하는지 명쾌한 설명을 제시하기란 쉽지 않다. 차별과 혐오를 조장하거나 위험한 행동을 부추기는 등 우려스러운 결과물이 나왔을 때조차 근본 원인을 찾아내기란 여간 어려운 일이 아니다.
설명 가능성의 부재는 AI 기술 발전의 걸림돌로 지적돼 왔다. 판단의 근거를 설명할 수 없다면 AI를 온전히 신뢰하기란 어려운 법이다. 의사결정 과정의 투명성이 담보돼야 AI에 대한 사회적 수용성도 높아질 수 있다. 자칫 잘못된 판단으로 막대한 피해가 발생할 수 있는 자율주행차나 의료진단 영역에서는 더욱 그렇다. 윤리적, 법적 책임 소재를 따지기 위해서라도 설명 가능성은 반드시 확보돼야만 한다.
이런 가운데 인공지능 전문 기업 Anthropic이 '기계적 상호해석(mechanistic interpretability)'이라는 인공지능 연구 분야에서 획기적인 성과를 거두었다고 밝혀 세간의 주목을 받고 있다. 그들은 자사의 대형 언어 모델(Large Language Model)인 Claude 3의 Sonnet 버전을 대상으로, 모델 내부를 들여다보고 작동 방식을 상세히 이해하는 데 성공했다. 대담하게도 Anthropic의 연구진들은 이번 연구 성과를 "대언어모델 심리 지도(Mapping the Mind of a Large Language Model)"라고 명명했다.
그간 AI 모델은 무언가를 입력하면 결과물이 출력되는 블랙박스로 여겨졌다. 개발자조차 명확히 설명하기 어려웠던 내부 작동 방식에 대해, Anthropic은 Claude 내부에 존재하는 수백만 개의 개념을 대표하는 특징(feature)들을 발견했다. 구체적으로는 도시, 인물, 원소, 학문 분야 등 실제 세계의 다양한 개체부터 프로그래밍 언어의 문법 요소에 이르기까지 광범위한 개념을 발견했다고 한다.
더 흥미로운 것은 이렇게 발견된 특징을 조작함으로써 Claude의 동작을 변화시킬 수 있다는 점이다. 연구진은 '골든 게이트 브리지' 특징을 인위적으로 강하게 활성화시킨 후 물리적 형태를 묻자 Claude가 스스로를 다리라고 인식하는 모습을 보였다.
Anthropic에서 발표한 “골든 게이트 브릿지”를 인위적으로 활성화시킨 대화 예시
실제로 Anthropic에서 골든 게이트 브리지의 특징을 강하게 활성화 시킨 예시를 살펴보면 단순한 날씨를 물어보는 질문에도 골든 게이트 브릿지와 연관해서 답변을 제공하고 있었다. 즉 골든 게이트 브리지와 관련된 특징을 찾아낸 것 뿐만 아니라 해당 특징을 강화시켜 LLM이 가지는 결과를 조정할 수 있었다는 것이다.
마찬가지로 차별적 발언에 반응하는 특징을 증폭시키자 평소와 다르게 차별적 태도를 보이기 시작했다고 Anthropic의 연구진은 밝히며 새로운 방식의 설명가능한 인공지능의 지평을 넓히기 시작했다.
'설명 가능한 AI(XAI, eXplainable AI)' 연구는 Anthropic만이 하고있는 것은 아니다. IBM과 구글 등 빅테크 기업들도 AI 모델의 판단 근거를 설명하고 시각화하기 위한 다양한 시도를 해왔다. OpenAI 또한 Superalignment팀을 통해서 설명가능한 인공지능과 인공지능 안전 기술 대비를 도모해 왔다.
그러나 기존 연구들은 대부분 모델을 구성하는 일부에 대한 사후 분석에 그쳤다. 자연어 처리 분야에서는 번역이나 요약과 같은 비교적 단순한 작업에 그쳤고, 소규모 연구용 모델에 국한되는 한계가 있었다. 반면 이번에 Anthropic이 공개한 연구는 현재 상용화된 대형 언어 모델에 XAI 기술을 처음으로 적용했다는 점에서 의미가 크다. GPT-3의 파생 모델인 Claude를 대상으로 모델에 내재된 개념을 직접 증폭, 억제함으로써 출력을 조작할 수 있음을 증명한 것이다.
나아가 인종차별적 편향, 허위정보 생성 등 광범위한 유해성과 연계된 개념을 발견했다는 점도 고무적이다. 문제의 특징을 발견하고 제거함으로써 보다 공정하고 건전한 AI 모델을 구현할 수 있게 된 셈이다. Anthropic은 이를 통해 AI 모델의 광범위한 안전 문제 해결에 기여할 수 있을 것으로 기대하고 있다. 향후 AI 시스템이 의도치 않게 해를 끼치는 일을 미연에 방지할 수 있는 토대를 마련했다는 평가다.
설명 가능한 AI가 학계에 국한된 연구 분야에서 벗어나 상용 모델에 직접 적용된 것은 이번이 처음이다. 그간 이론적 토대를 다져온 연구 성과가 빛을 발하는 순간이다. 급속도로 발전하는 AI 기술에 대한 사회적 우려를 씻어내는 동시에 보다 안전하고 신뢰할 수 있는 AI 개발의 토대를 마련했기 때문이다.
물론 해석 가능한 모든 특징을 발견했다고 볼 수는 없다. 새로운 방법론인 만큼 아직 검증해야 할 과제도 산적해 있다. 그럼에도 AI의 블랙박스를 여는 열쇠를 손에 넣었다는 사실만으로도 고무적이다. 설명 가능한 AI 연구의 새 장을 연 Anthropic의 연구진이 자신들의 연구 성과에 "대언어모델 심리 지도"라는 다소 도발적인 이름을 붙인 것도 그런 자신감의 발로로 읽힌다. 이들의 노력이 AI에 대한 대중의 신뢰를 얻고 기술에 대한 우려를 불식시키는 마중물이 되기를 기대한다.
<ifsPOST>
댓글목록
등록된 댓글이 없습니다.