열려있는 정책플랫폼 |
국가미래연구원은 폭 넓은 주제를 깊은 통찰력으로 다룹니다

※ 여기에 실린 글은 필자 개인의 의견이며 국가미래연구원(IFS)의 공식입장과는 차이가 있을 수 있습니다.

박재천의 디지털 경제 이야기 <65> 딥시크는 왜 저렴한가? 본문듣기

작성시간

  • 기사입력 2025년04월24일 17시10분
  • 최종수정 2025년04월22일 17시33분

작성자

  • 박재천
  • 국가미래연구원 연구위원, 전 인하대학교 교수

메타정보

  • 0

본문

DeepSeek R1은 운영 비용이 OpenAI의 o1의 15%-50%에 불과​

DeepSeek R1은 운영 비용이 OpenAI의 o1의 15%-50%에 불과한 것으로 추정되고 있다. 이러한 비용 효율성의 차이는 주로 훈련 방법론에 기인한다. DeepSeek R1의 훈련 과정은 최소한으로 제한한 지도 학습 미세 조정(SFT; supervised fine tuning)과 차별적인 강화 학습(Re-enforcement Learning) 알고리즘을 사용하는 혁신적인 접근 방식을 특징으로 한다. 일반적으로 사전준비와 레이블링에 비용이 많이 드는 대규모 데이터셋에 대한 의존도를 줄이는 데 초점을 맞추고 있다.  

 

DeepSeek-R1은 강화 학습만을 통해 저렴하게 생성된 소규모 "초기 데이터(cold-start data)"를 이용​

생각하는 추론 모델의 선구자인 OpenAI의 o1은 훈련 방법에 대한 구체적인 세부 사항은 공개되지 않았다. 그러나 o1은 상당한 지도학습 미세조정과 강화 학습에 기반하는 전통적인 접근 방식을 따른 것으로 알려져 있다, 이런 방식은 일반적으로 레이블된 대규모 데이터셋과 상당한 계산 자원을 필요로 한다.  전통적으로 쌍으로 묶여져 있는 대규모 입력-출력 데이터 세트가 필요하며, 이는 종종 사람이 동원되어 수동으로 만들어져 비용이 많이 든다. 그러나 DeepSeek-R1은 지도학습 미세 조정 없이 강화 학습만을 통해 저렴하게 생성된 소규모 "초기 데이터(cold-start data)"를 이용하고 있다 .  

 

DeepSeek-R1은​ 비용과 계산면에서 효율적인 GRPO(group relative policy optimization; 그룹 상대 정책 최적화) 알고리즘 구현

이와 더불어, DeepSeek-R1은​ 이러한 훈련방법을 최적화 하기 위해 비용과 계산면에서 효율적인 GRPO(group relative policy optimization; 그룹 상대 정책 최적화) 알고리즘을 구현했다. 이 알고리즘은 OpenAI의 전통적인 강화학습 방식보다 훨씬 비용 효율적이다. 별도의 평가 네트워크(critic)가 필요 없는 구조로 설계되어 메모리와 연산 자원을 약 50% 절감할 수 있다고 알려져 있다. 또한 값비싼 인간 피드백(human feedback) 대신 자동화된 보상 함수를 활용해 추가 비용을 줄이고 있다.   

 

DeepSeek의 기술력은 대형모델의 추론 능력을 소형모델로도 구현할 수 있는 획기적인 혁신 이뤄

이러한 DeepSeek의 기술력은 대형모델의 추론 능력을 소형모델로도 구현할 수 있도록 하는 획기적인 혁신을 이루었다. 모델이 스스로 오류를 인식하고, 수정하며, 그 이유를 설명하는 놀라운 현상까지 발견할 수 있었다. 때문에 기존의 지도학습에서 추구되는 단순한 암기나 패턴 매칭이 아니라, 실제로 모델이 ‘이해’를 기반으로 문제를 해결하는 능력을 보여주고 있다고 평가된다.  

 

이것이 DeepSeek R1가 약 557만 달러의 비용과 적은 GPU 자원만으로도 OpenAI의 o1과 같은 성능의 모델을 만들었다고 주장하고 있는 배경​

이것이 DeepSeek R1가 약 557만 달러의 비용과 적은 GPU 자원만으로도 OpenAI의 o1과 같은 성능의 모델을 만들었다고 주장하고 있는 배경이다. o1은 이중으로 되어 있는 모델 설계와 사람을 동원한 대규모 피드백으로 1억 달러 이상의 비용이 소요된 것으로 알려져 있다. DeepSeek R1의 API 가격이 o1에 비해 상당히 낮은 가격으로 제공되고 있는 것을 보더라도, 훈련에서 상당한 비용 효율성을 실현한 것으로 보여진다.  

<ifsPOST>

 

 

0
  • 기사입력 2025년04월24일 17시10분
  • 최종수정 2025년04월22일 17시33분

댓글목록

등록된 댓글이 없습니다.