열려있는 정책플랫폼 |
국가미래연구원은 폭 넓은 주제를 깊은 통찰력으로 다룹니다
※ 여기에 실린 글은 필자 개인의 의견이며 국가미래연구원(IFS)의 공식입장과는 차이가 있을 수 있습니다.
관련링크
본문
ChatGPT는 사람과 대화한다. 어떻게 만들어 졌을까? 대화형 모델을 만들려면, 언어에 대한 기초적 이해가 있어야 한다. 사람의 지도, 지시 또는 명령에 반응하고 화답할 수 있어야 한다. 또 사람스러운 대화를 하기 위해서 교양 수준, 상대방에 대한 존대, 사회를 유지하기 위한 도덕적 기준을 습득하고 있어야 한다. 이러한 학습/교육이 필요하다. OpenAI는 ChatGPT를 대화를 할 수 있는 정도의 지적 수준을 갖는 모델로 만들었다. 학습과정은 크게 보아 다음과 같이 단계별로 진행됬다.
1. GPT 기반 모델 (Generative Pre- Trained Foundation Model) 구축
AI는 처음에는 아무것도 모르는 상태다. 어린 아기와 같다고 보면 된다.그래서 먼저 언어의 낱말과 의미 그리고 기본 구조를 배워야 한다. 이러한 기초적 학습을 위해서, 인터넷, 책, 논문, 뉴스 등에 산재해 있는 방대한 양의 텍스트 데이터를 모아 AI에게 보여준다. 이런 과정에서 AI는 언어를 이해하고 문장을 만들어내는 방법을 배우게 된다.
일반적으로 대량의 데이터 세트가 필요하며, 모델은 데이터로부터 패턴과 특징을 파악하고 일반적인 언어 지식을 학습한다. 엄청난 양의 데이터에서 비지도 학습(unsupervised learning)을 통해 훈련된다. OpenAI는 이 모델을 GPT 기반모델이라고 명명했다. 갖가지 작업에 응용될 수 있다는 의미의 이름이다. 이 과정을 사전 학습(pre-training)이라 하며, 다음과 같이 학습된다.
○ 문장에서 일부 단어를 가리고, 모델이 그 단어를 맞히도록 훈련한다.
○ 문장의 다음 단어를 예측하도록 훈련한다.
○ 이렇게 반복하면서 문법, 의미, 문맥을 이해하는 법을 배운다.
2020년에 오픈AI(OpenAI)의 연구진은 기념비적인 기반 모델인 GPT-3를 발표했다. 이 모델은 곧 시와 프로그램, 노래의 작성과 웹사이트 등의 구축에 활용되기 시작했다. 전세계의 이용자들로부터 환영을 받았고, 사회에 기여하기 시작했다. GPT-3는 1조개에 가까운 단어를 포함한 데이터 세트로 훈련되었다고 한다. 또 신경망의 성능과 복잡성을 측정하는 핵심 척도인 파라미터의 수가 무려 1,750억개에 달하는 대형이었다.
2. 지도모델(InstructGPT Model) 구축
GPT 기반 모델은 기본적인 언어를 익힌 수준이다. 이제 사용자가 의도하는 과업에 맞춰 더 알맞는 결과를 생성할 수 있는 모델로 만들어야 한다. AI가 사람이 요구하는 지시 또는 명령에 잘 반응하고 적절한 답변을 생성하는 모델을 만드는 것이다. 이 모델을 구축하는 과정에서 사람이 엄선하여 만든 데이터 세트를 사용하여 학습을 진행하게 된다. 이렇게 만들어진 모델을 InstructGPT라 하는데 다음과 같이 진행된다.
○ AI가 질문과 답변을 더 자연스럽게 할 수 있도록 사람(훈련자)이 직접 예제 데이터를 제공한다.
○ 예를 들어, 사람이 "ChatGPT에게 OO 질문을 하면, OO 식으로 답해야 한다"라는 데이터를 만들어 AI에게 가르친다.
이 작업을 미세조정(fine tuning)이라고 부르며, 기반 모델을 이용하여 사람의 지도에 따라 적절히 "반응하는 법"을 교육시키는 것이다. 이 과정은 기반 모델이 ChatGPT로 발전하는 중간 단계가 된다. 이러한 파인 튜닝과정을 이용하면, 목적에 따라 재무, 법률, 의료, 바이오 부문 등에 적합한 지도 모델들을 만들어 나갈 수 있다.
다음 그림은 지도모델이 과업(Tasks; 그림 참조)에 따라 특화된 기능을 갖도록 다양하게 만들어질 수 있다는 것을 보여 주고 있다. 과업은 질문에 답변, 감정분석, 정보 추출, 이미지 설명 달기, 명령 이행 등 다양하게 주어질 수 있다는 것을 보여주고 있다. 문론 목표에 맞는 미세조정 방법과 데이터가 별도로 만들어진다. 그러나 데이터의 양은 기반 모델 구축 때 보다는 양적으로 작은 것이 일반적이다.
3. 강화학습 (RLHF, Reinforcement Learning from Human Feedback)
AI가 실제 사용자와 소통하면서 좀 더 사람스러운 그리고 수준높은 답변을 할 수 있도록 유도하는 과정을 말한다. 직접적으로 데이터를 통해 가르치기보다는 AI의 답변을 사람이 평가를 하고 이를 피드백해주는 방식으로 계속적으로 대화의 수준을 높이는 방식이다. 좀더 자세히 설명하면 다음과 같은 훈련 방식이 동원된다.
○ 훈련자(Human Trainers)가 AI의 답변을 보고 "이 답이 좋다" 또는 "이 답이 별로다"라고 평가해 준다.
○ AI는 이런 평가를 바탕으로 더 좋은 답변을 생성하는 방향으로 반응한다.
○ 반복적으로 좋은 답변일수록 보상을 주고, 나쁜 답변일수록 패널티를 주면서 AI모델의 대화능력을 완성해 간다.
강화학습 단계에서 ChatGPT가 "더 똑똑하게 대화하는 법"을 배우게 된다. 인간적인 차원의 수준에서, 비로소 상황을 파악하고 사회성 있게 대화하는 지능으로 발전하는 것이다. 답변해야 할 것과 안 해야 할 것, 회피해야 할 질문, 기분좋게 맞춰주어야 할 상황 등을 판단 할 수 있게 된다.
지금까지 설명한 3단계의 과정을 거치면서 ChatGPT는 대화가 가능한 지능이 완비된다. 사람과 사람같은 대화를 할 수 있게 된다. 이러한 3단계의 훈련과정은 OpenAI가 ChatGPT를 만들때 채택한 과정이다. 일반적으로 대화형 모델을 만드는 표준적 과정으로 인식되어져 있다.
<ifsPOST>
- 기사입력 2025년04월10일 22시17분
- 최종수정 2025년04월10일 22시16분
댓글목록
등록된 댓글이 없습니다.