[추가]

인터넷 상에 DeepSeek측에서 V3 개발 시 OpenAI 4o를 카피했다는 이야기도 나오고 있습니다.

아래 참고로 넣어둔 OpenAI 정형원 연구원의 영상에 내용과 DeepSeek R1 개발 방식이 유사해서 그런것 같습니다.

개념만 듣고 구현한 것이면 능력이라고 불러야 할 거 같은데...

현재 미중 AI 패권 경쟁을 고려할 때, 실재 카피 유무를 떠나서 연구성과를 공개하는 것에 대한 제약이 늘어날 수 있겠다는 생각이 듭니다.

Deepseek은 중국 스타트업으로 최근 LLM V3와 추론(Reasoning) 모델 R1을 공개했습니다. 4o를 기반으로 o1을 만들었듯, V3를 기반으로 R1을 만들었습니다.

V3 ( 4o 비슷한 LLM 것) -> R1 (o1 비슷한 것)

여기서 R1모델이 지금 큰 이슈입니다. o1 과 거의 동등한 수준의 추론모델을 오픈소스로 풀어버렸습니다. 개발비와 운영비는 기존 빅테크 대비 1/10 수준이라고 주장합니다.

이미 모델에 대한 검증이 상당부분 진행되었는데, 성능과 추론비용에 대해서는 이견이 없습니다. R1개발 단계에서 CoT(chain of thought) 추론 개발에 활용한 강화학습 기술에 대해서도 인정을 받고 있습니다. 다만 개발 비용에 대해서는 논란의 여지가 있습니다.

<파란색이 R1, 회색이 o1입니다. 대부분의 벤치마크에서 o1과 동등한 성능을 보입니다.>

그동안 이어졌던 중국에 대한 GPU 수출규제, 천문학적인 빅테크 투자규모를 고려할 때 중국의 AI 도약은 공포를 불러 일으킵니다. Google 내부에서 나왔다는 'we have no moat' 문서가 떠오릅니다.

그러나 여기서 우리가 간과하면 안되는 것이 DeepSeek는 거인의 어깨에 서서 이 모든 것을 이루었다는 사실입니다. DeepSeek는 기존 오픈소스 를 활용하고 미국 빅테크에서 사용한 다양한 테크닉들을 모방하여 초기 투자비용을 크게 줄일 수 있었습니다.

지금부터 논문을 보며 차근차근 설명해 보겠습니다.

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

DeepSeek의 핵심은 기존 post-training에 이용하던 Supervised fine-tuning(SFT) 과정을 생략하고 Reinforcement learning(RL) 을 처음부터 쓴것입니다.

post-training이란 비교적 적은 리소스를 이용하여 pre-trained 모델의 성능을 향상시키고 인간의 의도에 부합하는 행동을 하도록 유도하는 과정입니다. GPT-o1이후 이슈가 되고 있는 Resoning 역시 post-training에서 학습됩니다. 보통 Chain-of-thought (CoT)를 이용한다고 알려져 있습니다.

CoT는 인간이 수학문제를 풀 때, 풀이과정을 작성하며 풀듯, LLM이 문제를 풀 때, 풀이과정을 적고 이를 지속적으로 검토하며 출력을 생성하여 보다 체계적으로 문제를 풀 수 있게 돕습니다. 지금까지는 CoT 학습을 위해 사람이 예시를 작성해야 했습니다. 사람이 작성한 답과 유사한 답을 생성하도록 학습 하였기 때문에 이 과정을, SFT, 즉 지도 미세 조정 이라고 불렀습니다.

DeepSeek은 인간의 지도 없이 모델 스스로 답을 푸는 과정을 학습하도록 합니다. 이러한 과정을 일반적으로 RL, 강화학습이라고 부릅니다. 강화학습의 특징은 성과에 따라 보상(인센티브)이 주어지며 더 많은 보상을 받도록 학습된다는 것, 의사결정의 결과를 확인하기까지 시간지연이 있다는 것입니다. 문제 상황이 다양하고, 연속적인 의사결정(문제 풀이)의 성과는 마지막에에 답을 보고서야 알수 있기에 학습이 ...