열려있는 정책플랫폼 |
국가미래연구원은 폭 넓은 주제를 깊은 통찰력으로 다룹니다

※ 여기에 실린 글은 필자 개인의 의견이며 국가미래연구원(IFS)의 공식입장과는 차이가 있을 수 있습니다.

[IT 사랑방] <AI 특집> GPT 4.5 – 생각하는 AI로의 진정한 변화 본문듣기

작성시간

  • 기사입력 2025년03월04일 17시10분
  • 최종수정 2025년03월03일 15시11분

작성자

메타정보

  • 2

본문

부끄러운점을 고백할게 하나 있다. 필자는 같은 지면에서 24년 9월에 올린 컬럼 “<IT사랑방> OpenAI의 생각하는 AI : AI 추론의 새 시대와 그 이면의 도전과제”에서 추론모델의 컴퓨팅 자원의 과다한 소모로 인해 추론모델의 발전은 오래가지 않을것이라 말한 바 있다. 정정하고싶다. 앞으로의 초거대 AI는 추론모델을 기반으로 미래가 펼쳐질 것이다. 

 

OpenAI의 GPT-4.5​

2025년 2월의 마지막 날, 드디어 오리온 프로젝트라 불리는 OpenAI의 GPT-4.5가 모습을 드러냈다. 이번 GPT-4.5는 방대한 비지도 학습을 통해 지식 기반을 확대하고 언어 패턴 인식 능력을 키웠다​ 그 결과 사용자와 주고받는 대화는 한층 자연스러워졌으며, 질문 의도를 더 정확히 파악하고 맥락에 맞는 답변을 제공하는 능력이 향상되었다​. 또한 정확도 측면에서도 진일보 하였다. 실제 초기 테스트에서 GPT-4.5는 일반 상식 질문에 대한 정확도가 GPT-4o의 38.2%에서 62.5%로 크게 향상되었으며, 헛소리 발생률도 GPT-4o의 61.8%에서 37.1%로 뚜렷이 줄어들었다. 

 

글쓰기나 코딩 같은 창의적 작업 능력도 강화되었다. GPT-4.5는 긴 문장 생성이나 이야기 구성 등 장문 작성에서 보다 뛰어난 솜씨를 보여주며, 사용자 의도에 맞춰 글의 톤과 스타일을 조절하는 능력이 발전했다​ 예를 들어, 이전 모델이 다소 딱딱한 설명 위주로 답변했다면 GPT-4.5는 유머나 감성을 담아 인간다운 스토리텔링을 구사할 수 있다. 또한 프로그래밍 보조 능력이 향상되어, 복잡한 코딩 문제 해결이나 자동화 작업에서도 더 효과적으로 대응한다​.

b0900e3d1ca3ea9ec885614720d74b87_1740981

 

이처럼 GPT-4.5는 지식의 폭과 대화 품질에서 GPT-4 대비 눈에 띄는 개선을 이루었다. 다만 모든 면에서 향상만 된 것은 아니다. OpenAI에 따르면 GPT-4.5는 보다 범용적이고 직관적인 답변에 초점을 맞춘 반면, 복잡한 논리 추론을 위한 단계별 사고(chain-of-thought)는 별도로 도입하지 않았다​. 즉, GPT-4.5 자체는 최신 정보와 방대한 지식을 바탕으로 즉각적이고 일관된 응답을 잘 생성하지만, 세부적인 논리 풀이가 필요한 문제는 전문 추론 모델인 o 시리즈등에 맡기는 전략을 취하고 있다​

 

이러한 설계 선택은 곧 추론 모델로의 전환이라는 화두와 연결

기존 GPT 계열은 방대한 텍스트 데이터를 학습해 다음 단어를 예측하는 방식으로 문장을 만들어냈다. 이는 인간의 암묵지까지 흉내 내는 놀라운 성과를 거뒀지만, 복잡한 수학 문제나 논리 퍼즐을 풀 때는 한계를 드러내곤 했다. 이유는 명확하다. 사람은 문제를 풀 때 단계별로 생각을 전개하지만, 전통적인 언어 모델은 한 번에 바로 답을 만들어내기 때문이다. 그러나 최근 OpenAI를 비롯한 AI 연구자들은 모델이 스스로 여러 단계를 거쳐 추론하도록 하는 새로운 접근법을 모색 중이다.

 

OpenAI가 GPT-4.5와 병행하여 선보인 실험적 모델 O1이 그 대표적 사례다. O1 모델은 답을 곧바로 내지 않고, 여러 가능성을 생성한 뒤 검토하여 최적의 답을 선택하는 “테스트 시간 추론(test-time compute)”기법을 활용한다​. 예를 들어 O1은 어려운 수학 문제를 만나면 즉각 답을 추출하는 대신, 먼저 풀이 과정을 여러 단계로 나눠 시도해보고 그중 가장 그럴듯한 결론을 제시한다. OpenAI 연구자 노암 브라운(Noam Brown)은 “포커 게임 한 판에서 20초간만 더 생각하게 했더니, 모델을 100,000배 더 크게 만들고 100,000배 더 오래 훈련시킨 것과 맞먹는 성능 향상이 나타났다”라고 밝혀​ 추론 중심의 접근이 매우 중요함을 지적했다. 이는 거대 모델의 크기를 무작정 키우는 대신 모델이 ‘깊이 생각하도록’ 만드는 아이디어가 얼마나 효율적일 수 있는지 보여준다. 이런 추론모델은 OpenAI뿐만이 아니라 대부분의 주요 AI 기업들이 주력하고 있는 분야이며, GPT4.5와 같은 베이스 모델을 기반으로 추론 능력을 강화하고자 하고 있다. OpenAI는 GPT-4.5를 마지막 비(非)추론 모델로 규정하고, 차기 GPT-5에서는 현행 o3 추론 모델을 GPT 계열에 통합한 단일 AI 시스템을 예고했다​

 

2010년대는 스케일링의 시대였지만, 이제 다시금 경이와 발견의 시대​로 돌아와

그렇다면 이제는 스케일링의 법칙은 끝난것인가 ? GPT-3와 GPT-4까지 이어진 지난 십여 년간의 AI 혁신은 스케일링의 시대로 불렸다. 모델에 투입하는 매개변수(모델 크기)와 학습 데이터량을 기하급수적으로 늘리는 이른바 Scaling Law(스케일링 법칙)가 성능 향상의 Key로 인식되었기 때문이다. 실제로 GPT-3(1750억 매개변수)의 등장은 전례 없는 언어 이해·생성 능력으로 세계를 놀라게 했고, GPT-4는 더 많은 파라미터와 멀티모달 능력으로 한층 진화된 모습을 보였다. 그러나 GPT-4.5 시점에 이르러 이러한 “큰 것이 더 좋다” 전략이 한계에 봉착한 것이 아니냐는 의문이 제기되고 있다.

 

OpenAI 공동창업자 일리야 수츠케버(Ilya Sutskever)는 최근 “2010년대는 스케일링의 시대였지만, 이제 다시금 경이와 발견의 시대로 돌아왔다. 모두가 다음 돌파구를 찾고 있다”라고 언급하며, 앞으로는 “무엇을 스케일링하느냐”가 그 어느 때보다 중요해졌다고 주장하고 있다. 그의 말처럼 이제는 모델의 크기를 키우는 것만으로는 예전 같은 성능 도약을 보장하지 못하는 양상이다. 실제로 GPT-4 공개 이후 여러 경쟁사들이 GPT-5급의 초거대 모델 개발을 시도했지만, 수개월간 막대한 자원을 투입하고도 GPT-4와 최신의 o시리즈 정도까지는 따라온 듯 하지만, AGI라 불릴 정도로 뛰어넘은 모델은 아직 보이지 않는다​. 한 가지 현실적인 벽은 비용과 인프라다. 초거대 AI 모델의 훈련에는 수백 대의 고성능 AI 칩이 동원되고 수십억 단어의 데이터가 필요해 막대한 전력과 비용이 소모된다​. 규모 훈련 과정에서 하드웨어 오류가 발생할 확률도 높고, 몇 달을 돌린 후에야 모델 성능을 알 수 있는 불확실성도 크다​. 또한 인터넷상의 공개된 양질의 텍스트 데이터는 이미 상당 부분 모델들이 학습해 “쓸만한 데이터 고갈”문제가 나타나고 있다. 결국 단순히 데이터를 더 긁어모으고 모델을 키우는 방식은 투자 대비 효율이 떨어지고 한계수익이 줄어드는 수확체감단계에 접어든 것이다.

 

그렇다면 스케일링 법칙은 끝난 것일까? 엄밀히 말하면 “기존 방식의 스케일링은 한계에 가까워졌다”정도로 정리할 수 있다. 이에 대한 대안으로 업계가 주목하는 새로운 패러다임이 바로 앞서 언급한 추론 강화테스트 시간 컴퓨팅이다. OpenAI를 비롯한 선도 기업들은 거대 모델의 성능을 높이기 위해 이제 모델이 더 똑똑하게 생각하도록 만드는 법에 집중하고 있다. 다시 말해 무작정 크게에서 영리하게 학습시키기로 방향타를 틀고 있는 것이다​.

 

앞으로의 AI 모델 개발​

앞으로의 AI 모델 개발에서는 멀티모달 AI나 신규 알고리즘같은 다른 접근들도 중요해질 전망이다. 예를 들어, 언어와 이미지를 동시에 이해하는 멀티모달 능력은 모델의 세계 이해력을 높여주며, 단순 텍스트 이상의 복합적인 문제 해결을 가능케 한다. 또한 대규모 모델에 외부 지식 베이스를 연결해주는 검색 결합형 AI나, 여러 개의 전문 모델이 협업하여 작업을 수행하는 앙상블(ensemble) 기법등도 포스트-스케일링시대의 대안으로 떠오르고 있다. 궁극적으로는 동일한 자원으로 얼마나 효율적으로 학습하고 추론하게 할 것인가가 AI 경쟁의 핵심이 될 것이며, GPT-4.5의 등장은 이러한 추세를 분명히 보여주는 사례라 할 수 있다.

 

GPT-4.5 이후의 AI는 어떤 방향으로 나아갈까? 전문가들은 몇 가지 키워드를 꼽는다. 우선 멀티모달 AI의 진화다. GPT-4에서 이미 이미지 입력을 다루기 시작했듯, 미래의 AI는 텍스트, 이미지, 음성, 영상 등 다양한 형태의 데이터를 한꺼번에 이해하고 생성하는 통합지능으로 발전할 것으로 보인다. 예를 들어, 차세대 모델은 사진을 보고 상황을 설명하거나(시각 이해), 음성을 듣고 맥락에 맞게 대답하는(청각 이해) 등 인간처럼 오감으로 소통하는 AI로 거듭날 수 있다. 이러한 멀티모달 능력은 자율주행, 로봇공학, 의료영상 분석 등 산업 전반에서 AI 활용도를 극대화할 것이다.

 

또 하나의 축은 강화학습의 접목이다. 지금까지의 거대 언어모델은 인터넷 텍스트를 읽으며 간접학습을 해왔다면, 앞으로는 실세계와 상호작용하며 배우는 AI도 본격화될 전망이다. 강화학습(RL)을 통해 시뮬레이션이나 실제 환경에서 시행착오를 겪으며 스스로 개념을 익히고 능력을 향상시키는 AI 에이전트들이 등장할 수 있다. 이는 추상적인 언어 지식에 더해 행동과 경험을 통한 학습을 병행함으로써, 보다 인지적으로 풍부한 인공지능을 탄생시킬 수 있다.

 

AI의 한계와 윤리적 과제​

AI의 한계와 윤리적 과제 역시 미래 논의에서 빼놓을 수 없다. GPT-4.5 수준의 모델도 여전히 완벽한 정답 생성에는 미치지 못하며, 중요한 의사결정에 투입될 때는 인간의 검증이 필요하다​. 미묘한 편향이나 오류 가능성도 남아 있어, 고도화될수록 AI에 대한 책임 있는 통제와 검증 체계가 중요해진다. 아울러 AI가 확산됨에 따라 일자리 대체나 사생활 침해, 악의적 이용(예: 가짜뉴스 생성, 딥페이크 등) 우려도 증폭되고 있다. 이에 글로벌 차원에서는 AI 안전을 위한 규범 수립이 활발하다. 유럽연합(EU)은 ‘AI법’ 제정을 추진하고 있고, 우리나라 역시 AI 윤리기준과 거버넌스를 논의 중이다. 신뢰할 수 있는 AI, 인간에게 이로운 AI를 만들기 위한 책임 있는 혁신(responsible innovation)이 향후 AI 연구의 중요한 화두가 될 것이다.

 

결론적으로 GPT-4.5의 출현은 단순한 기술 업그레이드가 아닌, AI 발전의 질적 전환점을 알리는 신호탄이다. 지금까지 AI가 단어 예측과 패턴 인식에 의존했다면, GPT-4.5는 추론과 문제 해결 능력을 갖춘 진정한 '사고 기계'로의 첫걸음을 내딛은 것이다. 마치 인류가 불을 발견한 후 불의 크기를 키우는 데 집중하다가 갑자기 증기기관을 발명한 격변과도 같다.

 

우리의 과제

한국은 지금 중대한 갈림길에 서 있다. 반도체 강국이라는 하드웨어 우위를 넘어, AI 알고리즘과 추론 능력이라는 소프트웨어 혁신으로 나아갈 것인가? 1970년대 경공업에서 중화학공업으로 산업구조를 전환했던 결단력이 다시 한번 요구되는 시점이다. 우리가 AI의 양적 팽창이 아닌 질적 혁신에 투자한다면, 한국은 단순한 AI 소비국이 아닌 진정한 AI 선도국으로 도약할 수 있을 것이다.

<ifsPOST>

2
  • 기사입력 2025년03월04일 17시10분
  • 최종수정 2025년03월03일 15시11분
  • 검색어 태그 #GPT 4.5 #COT #추론 #o1 #o3 #Open AI #LLM​

댓글목록

등록된 댓글이 없습니다.