열려있는 정책플랫폼 |
국가미래연구원은 폭 넓은 주제를 깊은 통찰력으로 다룹니다

※ 여기에 실린 글은 필자 개인의 의견이며 국가미래연구원(IFS)의 공식입장과는 차이가 있을 수 있습니다.

박재천의 디지털경제 이야기 <21> 검색증강생성(RAG)이란? 본문듣기

작성시간

  • 기사입력 2024년06월06일 17시10분

작성자

  • 박재천
  • 국가미래연구원 연구위원, 전 인하대학교 교수

메타정보

  • 4

본문

검색증강생성이라는 단어가 요즈음 인공지능을 응용하려는 사람들에게  화두로 제시되고 있다. 영어로 풀어 쓰면 Retrieval Augmented Gereration (RAG) 이다. 검색 기능을 강화시킨 생성형 인공지능 모델로 이해하면 된다. 프롬프트가 입력되면 먼저 검색을 실시하여 관련 정보를 찾고, 이 정보를 함께 인공지능에게 보내 답변을 생성해 달라고 요청하는 모델이다.   

 

RAG 모델은 생성형 인공지능의 단점을 보완하기 위해 고안되었다.  인공지능이 거짓말을 그럴듯하게 하는 현상을 환각이라고 하는데, 이 모델을 적용하면 이런 현상을 제거 할 수 있다.  답변에 필요한 참조 자료를 제공하기 때문에 환각에 걸릴 염려가 대폭 줄어든다. 또, 생성형 인공지능은 학습되지 않은 과거를 모른다. 완성하는데 상당한 시간이 걸려, 개발을 시작한 이후의 사건에 대해서는 학습이 안됐기 때문이다.  RAG 모델을 통해 자료를 적절히 제공할 수 있다면, 최근 상황에 대한 무식을 상당히 보강할 수 있다. 또, 특정 전문분야의 응용을 개발하려면 해당 분야의 용어와 지식을 이해하여야 한다. 그런데 대형 생성형 인공지능은 특정 분야를 별도로 학습 시킬 수는 없다. 이런때 RAG 모델이 특정 분야의 지식자료를 공급하여 똑똑하게 만들 수 있다.  

 

RAG는 알기쉽게 말하면 검색기능을 덧붙여  생성기능을 강화하는 인공지능기술이라고 할 수 있다. 생성형 자연어 처리 모델의 결함들을 보정하기 위해 정보 검색을 통해 더 정확하고 최근 정보를 제공한다. 도서관에서 책을 참조하여, 그 지식을 바탕으로 레포트를 만들어 내는 것과 비슷하다.  

 

좋은 RAG 모델을 완성하는 핵심은 적합한 관련 정보를 찾아서 제공하는데 있다. 여기에 검색기능이 동원된다. 그런데 인공지능을 이용하는데는 자연어 프롬프트를 사용하기 때문에 시맨틱 검색이 필요하다. 질문과 명령이 의미하는 것과  맥락을 해석하여 관련 정보를 찾아 주는 기술이다. 자연어로 이루어진 질문의 의도를 상황에 맞게 분석하여, 원하는 정보를 가져다준다. 검색을 키워드의 알파베트에 일치 시키는 것이 아니라, 질문의 의미와 상황에 일치시킴으로써 답변을 완성한다.  

 

기술적인 면을 설명하자면, 시맨틱 검색은 벡터 검색 기술을 통해 이루어진다. 인공지능 모델내에는  단어와 의미들이 벡터 형태로 산재해 있는데 각 위치는 다른 벡터와의 상대적 연관성을 지니고 있다. 시맨틱 검색은 이곳에서 유사한 벡터를 발견해 관련있는  콘텐츠를 찾아내고  순위를 부여한다. 이러한 정보를 이용하여 생성형 인공지능이 답변을 만들어낸다.  

 

RAG 모델은 쳇지피티와 같은 대형 생성형 인공지능에게 정확하고 상황에 맞는 자료를 적절히 제공하는 임무를 가지고 있다. 따라서 연결된 정보의 품질과 범위에 의존하므로, 고 품질의 지식 데이터베이스를 구축하는 것 중요한 과제다. 이러한 능력이 RAG 모델의 좋고 나쁨을 가르는 중요한 기준이 된다. 

<ifsPOST>​ 

4
  • 기사입력 2024년06월06일 17시10분

댓글목록

등록된 댓글이 없습니다.