열려있는 정책플랫폼 |
국가미래연구원은 폭 넓은 주제를 깊은 통찰력으로 다룹니다

※ 여기에 실린 글은 필자 개인의 의견이며 국가미래연구원(IFS)의 공식입장과는 차이가 있을 수 있습니다.

박재천의 디지털경제 이야기 <23> 엠베딩 벡터; 인공지능의 핵심 본문듣기

작성시간

  • 기사입력 2024년06월20일 17시10분
  • 최종수정 2024년06월20일 15시27분

작성자

  • 박재천
  • 국가미래연구원 연구위원, 전 인하대학교 교수

메타정보

  • 2

본문

인공지능이 언어를 이해 하기위해서는 단어와 문장을 컴퓨터가  처리할 수 있는 형태로 컴퓨터 내에 저장하여야 한다. 이때 사용되는 개념이 ‘엠베딩 벡터’다. 단어나 문장을 벡터 형태로 변환하여 컴퓨터가 의미와 연관성을 이해할 수 있도록 수학적 형식으로 표현된 것을 의미한다.   
벡터라는 수학적 용어가 동원된 이유는, 단어를 벡터로 표현함으로써 의미와 문맥을 보다 잘 이해할 수 있게 하기 때문이다. 단어의 의미와 단어 간의 연관성을 벡터 공간에서 표시할 수 있어, "king" 벡터에서 "man" 벡터를 빼고 "woman" 벡터를 더하면 "queen" 벡터가 나오는 의미론적 수학연산이 벡터공간에서 가능하다.  인공지능이 자연어를 처리할 수 있는 방법을 제공한다.   

이러한 의미론적 연산은 인공지능이 자연어를 해석하고 생성하는 데 필수적 도구다. 문장의 유사성 측정, 문서 분류, 감성 분석 등 다양한 자연어 처리 작업에서 중요한 역할을 한다. 엠베딩 벡터가 존재하고 축적되어 있는 공간은 사람이 기억과 추론을 하는 뇌와 같은 역할을 한다.  

엠베딩 벡터 공간은 ‘워드투벡’ 모델을 이용하여 만들어진다. 이 모델은 언어를 다차원의 의미를 갖는 벡터로 변환해 주는 자동화 도구다. 문장과 단어들을 벡터로 변환하고 컴퓨터 내에 엠베딩벡터 공간을 만들어준다. 단어 간의 관계를 반영하여 유사한 의미를 가진 단어들이 서로 이웃한 벡터군집을 이루도록 한다. 또 벡터 간의 상대적 의미나 문법 정보를 파악하도록 한다.  

우리가 프롬프트를 이용하여 질문을 던지면 인공지능인 챗지피티는 질문을 벡터로 변환하여 질문의 의도와 맥락을 파악한다. 그리고 미리 만들어져 있는 엠베딩벡터들과 비교하고, 적절한 연산을 통하여 유사성과 관련성을 찾아 답변을 생성하게 된다. 이렇듯 엠베딩벡터의 존재는 인공지능의 핵심을 이루고 있다.   

자연어 처리에서 엠베딩 벡터는 여러가지로 응용되고 있다. 

1. 문서 분류와 감성 분석: 벡터화 된 단어나 문장을 기반으로 문서를 주제별로 분류하거나 감성을 분석하는 작업에 사용된다. 
2. 번역: 문장을 벡터로 변환하여 다른 언어로 번역하는 과정에서 문맥을 보다 잘 이해하고 품질 높은 번역을 생성할 수 있게한다. 
3. 정보 검색: 검색 엔진에서 사용자 질의의 의도와 문맥을 이해하여 의미적으로 정확하고 맥락에 맞는 정보를 검색하는 데 활용된다.   

이러한 다양한 방식으로 엠베딩 벡터는 인공지능의 자연어 처리 기술을 향상시키고, 인간세계에서 이루어지는 언어 이해 능력을 컴퓨터 내에서 재현시키는 데 중요한 역할을 한다.  

 1. **문서 분류와 감성 분석**: 벡터화된 단어나 문장을 기반으로 문서를 주제별로 분류하거나 감성을 분석하는 작업에 사용됩니다. 
2. **번역**: 문장을 벡터로 변환하여 다른 언어로 번역하는 과정에서 문맥을 보다 잘 이해하고 품질 높은 번역을 생성할 수 있게 합니다. 
3. **정보 검색**: 검색 엔진에서 사용자 질의의 의도와 문맥을 이해하여 의미적으로 정확하고 맥락에 맞는 정보를 검색하는 데 활용됩니다.   

이러한 다양한 방식으로 엠베딩 벡터는 인공지능의 자연어 처리 기술을 향상시키고, 인간 세계에서 이루어지는 언어 이해 능력을 컴퓨터 내에서 재현하며 여러 형태로 응용되고 있다. ​

​<ifsPOST>​

2
  • 기사입력 2024년06월20일 17시10분
  • 최종수정 2024년06월20일 15시27분

댓글목록

등록된 댓글이 없습니다.