열려있는 정책플랫폼 |
국가미래연구원은 폭 넓은 주제를 깊은 통찰력으로 다룹니다

※ 여기에 실린 글은 필자 개인의 의견이며 국가미래연구원(IFS)의 공식입장과는 차이가 있을 수 있습니다.

박재천의 디지털경제 이야기 <51> AI는 어떻게 맥락을 이어가나? 본문듣기

작성시간

  • 기사입력 2025년01월23일 22시10분

작성자

  • 박재천
  • 국가미래연구원 연구위원, 전 인하대학교 교수

메타정보

  • 2

본문

인공지능과 대화 과정에서 제일 중요한 것은 대화 맥락의 이해​

인공지능과 대화하는 과정에서 제일 중요한 것은 대화의 맥락을 이해하는 것이다. 사람은 이러한 능력이 자연적이고 태어나면서 주어진 것이지만, 인공지능은 맥락을 파악하고 이해하고 유지하기 위해서는 특별한 작동장치가 구비되어야 한다.  

 

맥락 이해를 위해 특별한 ‘주의(attention)’가 필요​

신경과학자들은 인간의 뇌가 맥락을 이해하기 위해서는 특별한 ‘주의(attention)’가 필요하다고 말한다. 인간의 기억은 연상기억 시스템으로 만들어져 있기 때문에 특정한 장소 시간 이벤트 감정 등과  결부되어 저장되고 인출된다. 따라서 대화는 감성, 의미, 개념, 상황 등이 기억되고 유지되어야 맥락 파악이 가능하다. 즉 대화를 효율적으로 이어 갈 수 있다. ‘주의(attention)’를 함으로서 대화의 맥락을 유지하고 학습을 할 수 있다.  

 

인공 신경망에서 만들어진 여러 가지 주의 알고리즘

뇌신경학적 작동 시스템에서 영감을 받아 인공 신경망에서 여러 가지 주의 알고리즘이 만들어져 왔다. 이러한 장치를 추가하면 인공지능의 성능이 눈에 띄게 향상된다. 인공신경망에 attention 모듈이 일찍 적용된 사례는 순환 신경망(RNN)에 의한 시퀀스2시퀀스 또는 인코더-디코더 모델이었다. 이러한 작업의 대표적인 형태가 번역작업이다. 예를 들면, 한글 문장을 영어로 번역하는 과정을 시퀀스2시퀀스 모델 또는 인코더 디코더 모델의 대표적인 형태로 취급한다.  ‘일련의 한국문장의 입력을 영어문장의 출력으로 만든다’ 또는 ‘한국 문장을 다른 형태로 바꾼(encode) 다음 같은 뜻을 가진 영어문장으로 재생(decode)한다’는 개념이다.  

 

attention 알고리즘​

사람간의 대화라면 당연히 유지되고 있는 문장 맥락을 특별한 알고리즘을 통해 인공지능에는 특별한 장치로 부여할 필요가 있다. 이때 기능하는 모듈이 attention 알고리즘이다. 기존의 시퀀스2시퀀스 모델에서는  ‘맥락벡터(context  vector)’라는 장치를 도입하여 사용하여 왔다. 맥락벡터는 입력문장의 문맥정보를 벡터형태로 만든 것이다. 입력 문장에 일정한 규칙을 적용하여 맥락정보를 계산한다. 출력 장치는 번역된 문장을 생성할 때 이 맥락벡터를 참조하게 하는 방식이다. 이 방법은 문제점을 가지고 있는데 고정된 길이의 한 벡터가 입력문장의 맥락정보를 보유하여야 한다는 제한 때문에 제대로 작동하지 못할 경우가 많다는 것이다. 입력 문장이 여러 길이로 또 여러 형태로 변화 되어 들어 올 때는 급격히 성능이 저하되곤 한다.  

 

self attention을 이용하여 AI 분야에 혁명을 일으킨 Transformers 모델

2017년에 구글의 연구원인 Vaswani 등은 "Attention is All You Need"라는 논문에서 기계 번역을 위한 획기적인 스타일의 아키텍처를 제안한다. 이 모델은 self attention이라는 발전된 형태의 장치를 이용하여  AI 분야에 혁명을 일으킨 Transformers 모델을 제안한다. 입력 문장에 있는 모든 단어들 간의 관계를 계산하여 문맥을 파악하는 발전된 알고리즘을 가지고 있다. 입력과 출력을 처리하는데 전적으로 self attention에 의존하여 완결함으로, 이전 모델의 비효율을 획기적으로 제거했다. 따라서 순환 신경망이나 합성곱 신경망 등의 기존 AI 모델들을 사용하지 않는 혁신적 모델이다. 

 

Self-Attention은 문장 내 단어들 간의 관계를 효과적으로 파악하여 문맥을 이해하는 데 보다 크게 기여한다. 문장 내 모든 단어들 사이의 관계를 수치화하여 상호관련을 파악하고, 각 단어가 다른 단어들과 얼마나 연관되어 있는지를 가중치로 표현한다. 따라서 맥락벡터는 차원을 늘려서 보다 많은 맥락정보를 보유하는 맥락 행열벡터 형태로 표현된다. 이 작업은 병렬로 진행되는데  모든 단어쌍 간의 관계를 동시에 효율적으로 계산한다. 따라서, 보다 세밀한 맥락 유지가 가능해 졌다. 

 

논문의 제목이 가르치듯 self attention 알고리즘만 잘 활용하면 번역작업을 효율적으로 처리할 수 있다. 이 제안은 획기적이어서 이 장치를 기반으로 하는 트랜스포머(transformer) 모델은 자연어처리에 혁신을 불러와, GPT나 BERT 모델과 같은 현재 인공지능 들의 핵심 프레임 워크가 되었다. 인공지능의 attention 알고리즘이 연상기억을 하는 인간의 주의 시스템을 사실적으 모방 했는지는 학자들마다 의견이 있을 수 있다. 그러나 인간의 주의 기능이 인공지능의 attention 시스템 개발에 영감을 주었고 인공지능 개발에 혁신적 수단을 제공했다는 사실에는 이견이 없다.

<ifsPOST>​ 

2
  • 기사입력 2025년01월23일 22시10분

댓글목록

등록된 댓글이 없습니다.