열려있는 정책플랫폼 |
국가미래연구원은 폭 넓은 주제를 깊은 통찰력으로 다룹니다

※ 여기에 실린 글은 필자 개인의 의견이며 국가미래연구원(IFS)의 공식입장과는 차이가 있을 수 있습니다.

박재천의 디지털경제 이야기 <54> 토큰을 사용하는 이유 본문듣기

작성시간

  • 기사입력 2025년02월06일 17시10분
  • 최종수정 2025년02월06일 16시58분

작성자

  • 박재천
  • 국가미래연구원 연구위원, 전 인하대학교 교수

메타정보

  • 0

본문

토큰(Token)은?

토큰(Token)은 자연어 처리(NLP)에서 분석 가능한 가장 작은 단위로 분리한 요소를 의미한다. 문장을 구성하는 단어나, 더 작은 의미단위(형태소, 문자 등)를 가리키며, 컴퓨터가 처리하기 위해 사용하는 기본 단위이다. 

 

언어처리에서 토큰 분리가 필요한 이유​

언어처리에서 토큰 분리가 필요한 이유는 자연어를 컴퓨터가 이해 할 수 있는 단위로 분리하기 위해서이다. 언어는 형태소, 문법, 어순, 접사 등으로 복잡하게 구성되어 있다. 특히 한국어의 경우 어미나 조사 등이 결합된 형태가 많아서, 복잡하고 모호성이 많다. 때문에 효과적으로 분석하고 처리하기 위해 입력 데이터를 작은 구성요소(즉, 토큰)로 나눠야 한다. 예를 들면, "나는 책을 읽는다."라는 문장을 AI는 ["나”, “는", "책”, “을", "읽”, “는다", "."]라고 입력한다.  

 

생물학적 지능과 인공지능을 비교하자면, 자연어 처리에서 토큰은 뇌신경 세포에서 작동하는 것과 유사한 정보 처리 단위다. 뉴런이 신경계에서 전기적, 화학적 신호를 통해 정보를 처리하고 전달하듯이, 토큰도 텍스트의 기본적 요소로서 의미를 전달한다. 두 시스템은 언어 처리에서 유사한 작동방식을 보이고 있다.  

 

뇌신경 네트워크​에서 토큰화 개념 발전

토큰화와 관련된 자연어 처리 방식은 뇌신경 세포의 기능을 실제적으로 모방했다고 할 수는 없지만,  뇌신경 망에서 이루어지는 언어 처리 메커니즘에서 영감을 받았다고 볼 수 있다. 특히, 뇌신경 네트워크가 언어를 처리하고 분절하는 방식과 유사한 원리를 모델링하려는 시도에서 토큰화의 개념이 발전했다. 

 

인간의 뇌는 언어를 처리할 때 계층적으로 작동한다. 뇌는 소리를 듣고 이를 음소(음운의 최소 단위)로 분리한 후, 이를 결합하여 형태소(의미를 가진 최소 단위)를 이해한다. 언어처리 모델의 토큰화도 유사한 과정으로, 텍스트를 단어 수준 또는 하위 단위(형태소, 서브워드)로 나눈 다음 처리한다. 작은 단위인 토큰을 조합함으로써 문장과 문맥을 이해해 나가는 계층 구조를 따르고 있다. 뉴런이 네트워크를 통해 세포수준의 정보를 연결하고 의미를 구성하는 것처럼, AI도 언어 모델에서 토큰을 동적으로 결합하여 더 높은 수준의 의미를 창출하는 것이다. 

 

생물학적 뇌는 언어를 처리할 때 반복적인 패턴을 빠르게 감지하고 학습한다. 예를 들어, "먹는다"라는 동사 뒤에 항상 목적어가 온다는 패턴을 알아 차린다. 언어모델에서도 토큰화는 텍스트를 일정한 패턴으로 유형화하여 처리하도록 해준다. 이는 뇌가 언어의 패턴을 이해하고 효율적으로 이해하는 방식과 유사하다. 

 

인공지능적 언어 모델은 생물학적 시스템 즉 뇌신경망이 언어를 이해하는 메카니즘으로부터 많은 영감을 받아 모델링되었다. 그 기초가 단어와 문장을 토큰화하여 처리하는 작업이다.  

<ifsPOST>

 ​ 

0
  • 기사입력 2025년02월06일 17시10분
  • 최종수정 2025년02월06일 16시58분

댓글목록

등록된 댓글이 없습니다.