프리미엄
예측대회
투자분석
아카데미
커뮤니티
로그인Valley AI 시작하기시작하기
Valley Space인기
[Deep Dive Tech] DeepSeek-R1 분석
Deep Dive Tech기술 분석

[Deep Dive Tech] DeepSeek-R1 분석

avatar
BSPK
2025.01.27조회수 13회

[추가]

인터넷 상에 DeepSeek측에서 V3 개발 시 OpenAI 4o를 카피했다는 이야기도 나오고 있습니다.

아래 참고로 넣어둔 OpenAI 정형원 연구원의 영상에 내용과 DeepSeek R1 개발 방식이 유사해서 그런것 같습니다.

개념만 듣고 구현한 것이면 능력이라고 불러야 할 거 같은데...

현재 미중 AI 패권 경쟁을 고려할 때, 실재 카피 유무를 떠나서 연구성과를 공개하는 것에 대한 제약이 늘어날 수 있겠다는 생각이 듭니다.


Deepseek은 중국 스타트업으로 최근 LLM V3와 추론(Reasoning) 모델 R1을 공개했습니다. 4o를 기반으로 o1을 만들었듯, V3를 기반으로 R1을 만들었습니다.

V3 ( 4o 비슷한 LLM 것) ->  R1 (o1 비슷한 것)


여기서 R1모델이 지금 큰 이슈입니다. o1 과 거의 동등한 수준의 추론모델을 오픈소스로 풀어버렸습니다. 개발비와 운영비는 기존 빅테크 대비 1/10 수준이라고 주장합니다.

이미 모델에 대한 검증이 상당부분 진행되었는데, 성능과 추론비용에 대해서는 이견이 없습니다. R1개발 단계에서 CoT(chain of thought) 추론 개발에 활용한 강화학습 기술에 대해서도 인정을 받고 있습니다. 다만 개발 비용에 대해서는 논란의 여지가 있습니다.

Refer to caption

<파란색이 R1, 회색이 o1입니다. 대부분의 벤치마크에서 o1과 동등한 성능을 보입니다.>


그동안 이어졌던 중국에 대한 GPU 수출규제, 천문학적인 빅테크 투자규모를 고려할 때 중국의 AI 도약은 공포를 불러 일으킵니다. Google 내부에서 나왔다는 'we have no moat' 문서가 떠오릅니다.

image.png

<LLM 자체에는 해자가 없다는 내용>


그러나 여기서 우리가 간과하면 안되는 것이 DeepSeek는 거인의 어깨에 서서 이 모든 것을 이루었다는 사실입니다. DeepSeek는 기존 오픈소스 를 활용하고 미국 빅테크에서 사용한 다양한 테크닉들을 모방하여 초기 투자비용을 크게 줄일 수 있었습니다.


지금부터 논문을 보며 차근차근 설명해 보겠습니다.



DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

image.png

DeepSeek의 핵심은 기존 post-training에 이용하던 Supervised fine-tuning(SFT) 과정을 생략하고 Reinforcement learning(RL) 을 처음부터 쓴것입니다.

image.png

post-training이란 비교적 적은 리소스를 이용하여 pre-trained 모델의 성능을 향상시키고 인간의 의도에 부합하는 행동을 하도록 유도하는 과정입니다. GPT-o1이후 이슈가 되고 있는 Resoning 역시 post-training에서 학습됩니다. 보통 Chain-of-thought (CoT)를 이용한다고 알려져 있습니다.

CoT는 인간이 수학문제를 풀 때, 풀이과정을 작성하며 풀듯, LLM이 문제를 풀 때, 풀이과정을 적고 이를 지속적으로 검토하며 출력을 생성하여 보다 체계적으로 문제를 풀 수 있게 돕습니다. 지금까지는 CoT 학습을 위해 사람이 예시를 작성해야 했습니다. 사람이 작성한 답과 유사한 답을 생성하도록 학습 하였기 때문에 이 과정을, SFT, 즉 지도 미세 조정 이라고 불렀습니다.

image.png

DeepSeek은 인간의 지도 없이 모델 스스로 답을 푸는 과정을 학습하도록 합니다. 이러한 과정을 일반적으로 RL, 강화학습이라고 부릅니다. 강화학습의 특징은 성과에 따라 보상(인센티브)이 주어지며 더 많은 보상을 받도록 학습된다는 것, 의사결정의 결과를 확인하기까지 시간지연이 있다는 것입니다. 문제 상황이 다양하고, 연속적인 의사결정(문제 풀이)의 성과는 마지막에에 답을 보고서야 알수 있기에 학습이 ...

회원가입만 해도
이 글을 무료로 읽을 수 있어요.

Basic 7일 무료 체험 시작하기
이미 계정이 있으신가요?로그인하기
댓글 7개
avatar
BSPK
구독자 496명구독중 9명
전자전기공학 박사, AI 연구자를 거쳐 전략기획 업무를 합니다. 기술의 발전이 가져올 세상의 변화를 먼저 포착하고 전달하고자 합니다.
avatar
PROTEIN
2025.01.27

오늘 단테형님 영상에서 소련으로 인해 NASA가 생긴 것처럼, 이번에 Deepseek사태로 미국에 새로운 단체가 생길 것 같다라는 말씀을 하셨는데, 이젠 정말 기업에서 국가 단위의 싸움이 될 것 같네요. 좋은 글 감사합니다.

avatar
BSPK
작성자
2025.01.27

감사합니다. 국가간 AI 패권에 대해 고민 하신다면 Situational Awareness에서 다음 부분을 읽어보시면 좋을거 같습니다. https://situational-awareness.ai/lock-down-the-labs/

avatar
hoocastle
2025.01.27

벨리에 계셔주셔서 감사합니다.

avatar
BigTechMan
2025.01.27

자세한 해설 감사합니다 말씀하신 내용을 곱씹어보면 오늘 시장의 발작이 어떤 분들한테는 좋은 진입 시기가 될 수도 있겠네요

avatar
린디
2025.01.27

잘 읽었습니다. 큰 도움 되었습니다. 감사합니다.

avatar
노팬티
2025.01.27

감사합니다. 너무 잘 읽었습니다!

avatar
티모씨
2025.01.29

정말 많이 배웁니다. 항상 감사드려요.

기술 분석 카테고리의 다른글

[Deep Dive Tech] 비트코인에 대한 SF적 상상

문라이트: https://blog.valley.town/@bspark/post/678b1dbdacaeecfd7dfb84fb 저는 오랫동안 비트코인 회의론자였습니다. 그러다 24년 말 포트폴리오 관리 차원에서 비트코인을 일부 매수 했고, 그 이유를 적어봅니다. 널리 알려진 스테이블 코인과 미국채간의 관계, 블랙마켓 등에 내용은 생략합니다. 조금은 SF 같은 상상이 가미되어 있습니다. 금융 지식이 부족하여 용어에 착오가 있을 수 있습니다. 0) 비트코인은 이미 제도권에 편입된 금융 상품으로 인정을 받은 상황이다. 미국 시장에 상장되었다는 점에서 하나의 상품으로 볼 수 있다고 생각 합니다. 이 부분에서 동의하지 않으면 아래 내용은 무의미합니다. 1) 금 채굴은 상당히 비효율적이다. 에드 콘웨이의 '물질의 세계' 에필로그를 보면 금 채굴이 얼마나 비효율적인 일인지 잘 설명하고 있습니다. 이에 비하면 비트코인 채굴을 위해 쓰는 전력은 매우 '친환경적'으로 보입니다. 금괴 한 덩이를 만들기 위해서 얼마나 많은 흙을 파헤쳐야 할까? 바릭골드 관계자들에게 물었더니 모르겠다고 대답했다. 그러나 나는 알고 있었다. 단 하루 작업에 이 트럭들이 엠파이어스테이트빌딩 무게의 바윗덩어리들을 운반한다는 사실을, 계산해보니, 골드바 표준 중량인 400트로이온스(약12.4kg) 하나를 만드려면 5,000톤의 흙을 파내야 했다. 이는 세계 최대...
기술 분석
2025. 01. 18
3
4
17
[Deep Dive Tech] 비트코인에 대한 SF적 상상

[Deep Dive Tech] Nvidia COSMOS, 이름이 너무 거창한거 아닌가?

Nvidia가 최근 CES2025에서 Cosmos, 혹은 World Foundation Model 이라는 거창한 AI모델을 발표했습니다. 언제나처럼 AI 관련해서는 '정확히 뭔지 모르겠는' 모델을 발표 하였는데요, 모델의 구조도 복잡하고 기능도 다양하여 한 번 정리해 보았습니다. (참고: https://arxiv.org/html/2501.03575v1) Nvidia에 따르면 Cosmos의 정의는 다음과 같습니다. NVIDIA Cosmos™ is a platform of state-of-the-art generative world foundation models (WFM), advanced tokenizers, guardrails, and an accelerated data processing and curation pipeline built to accelerate the development of physical AI systems such as autonomous vehicles (AVs)and robots. 설명이 조금 복잡하지만 짧게 쓰자면 Cosmos는 Physical AI를 위한 생성형 AI 기반의 학습 플렛폼, WFM은 physical AI를 위한 pre-trained model입니다. 위 설명을 이해하려면 두가지 배경지식이 필요합니다. 1) 원래 로봇 학습을 어떻게 하는지, 2) pre-trained model이 뭔지. 1) 기본적으로 여기서 말하는 로봇학습은 강화학습 입니다. 강화학습이란, 반복시행과 보상을 통해 행동 '정책'을 학습 시키는 것입니다. (강아지 '손' 이랑 비슷) 자세한 설명: link 직관적인 영상: https://youtu.be/fiQsmdwEGT8?si=rzz4vzcssKAlidke 2) pre-trained model은 말 그대로 사전학습 모델을 말합니다. GPT = generative pretrained transformer 에서 P가 사전학습되었다는 의미 입니다. 방대한 데이터로 시스템에 대한 이해는 충분히 시켜 놨는데, 아직 ...
기술 분석
2025. 01. 13
4
0
20
[Deep Dive Tech] Nvidia COSMOS, 이름이 너무 거창한거 아닌가?

Quantum Computing은 거품일까?

최근 12월 퀀텀 하이프를 보며, 대형 기술주를 30%가량 매도하여서 연말 하락의 충격을 대비할 수 있었습니다. 이후 1분기 퀀텀 주 조정이 오면 기술주를 다시 매수하려고 계획하고 있었는데, 젠슨황 Nvidia CEO의 퀀텀 컴퓨팅 상용화 시기에 대한 실망스러운 발언으로 타임라인이 좀 당겨지게 되었습니다. (AISW 비중은 이미 충분히 높아서 HW 설계, 생산쪽 주식을 일부 매수 시작 하였습니다.) <Jenson: “If you kind of said 15 years for very useful quantum computers, that would probably be on the early side. If you said 30, it’s probably on the late side,” “If you picked 20, I think a whole bunch of us would believe it.”> 2025년은 퀀텀의 해가 될 거라는 이야기가 증권가를 가득 채울 때, 회의적이었던 이유에 대해 한 번 적어봅니다. 일단 퀀텀 컴퓨팅이 유용함을 인정 받으려면 다음 세가지 기술 혁신이 필요합니다. 유용한 알고리즘의 발견 양자애러 정정 양자 얽힘을 유지한 큐빗 확장 그리고 아직 어느 것 하나 재대로 구현되어 있지 않습니다. 퀀텀 알고리즘이 왜 중요할까? 흔히 퀀텀 컴퓨팅을 이용하면 '병렬연산'을 빠르게 수행할 수 있다고 이야기 하지만, 이건 사실이 아닙니다. 퀀텀 컴퓨팅은 여러 경우의 수 중 정답일 확률이 높은 연산을 한번만 수행한다고 이해하는게 편합니다. 쉽게말해 미로찾기를 한다고 치면, GPU는 여러명이 모든 갈림길을 동시에 가 보면서 출구를 찾는 방식이고, 퀀텀은 정답일 가능성이 높은 경로 하나만 찾는 방식입니다. 문제를 푸는 방식이 완전히 다르기 때문에 기존의 알고리즘을 사용할 수 없습니다. 사용할 수 있는 Logic(gate)들도 다릅니다. <고전 컴퓨터 Logic Gate> <퀀텀 컴퓨터 Logic Gate> 즉, 새로운 Logic을 이용하여 문제를 풀수 있는 알고리즘을 개발해야 하며, 그게 기존의 알고리즘 대비 이점이 있음이 확인 되어야 합니다. AI도 입력된 데이터를 원하는 출력으로 바꿔주는 알고리즘의 하나인데, 아직 퀀텀 이점이 밝혀지지 않았고, 경로 최적화, 시뮬레이션 등에서 알고리즘 연구가 활발하지만, 유용성이 높은 분야에서 명확한 이점(time complexity 측면에서)을 검증받은 ...
기술 분석
2025. 01. 12
11
1
15
Quantum Computing은 거품일까?

지능의 가격, 0

OpenAI o3 모델은 ARC-AGI 밴치마크에서 인간 이상의 점수를 획득했다. 이것은 무엇을 의미하는가? ARC-AGI는 인간에게는 쉽지만 AI가 해결하기 어려운 문제를 모와둔 벤치마크이고, 문제마다 규칙이 다르다. 이는 높은 추상화 능력을 바탕으로 처음 보는 게임의 규칙을 빠르게 파악하고 다음을 예측하는 것을 목적으로 한다. [대략 이런 문제들] 2020년만해도 AI의 정답율을 5%에 불가하였으나, o3는 87% 를 획득하여 85% 수준인 인간보다 뛰어난 점수를 얻었다. AI가 처음 보는 문제에 대해 인간보다 나은 패턴인식 능력을 보인다는 것이다. 즉 이제는 AI가 인간보다 더 높은 IQ, 더 뛰어난 직관을 보유하고 있다고 말할 수 있다. 진정으로 AGI의 시작이다. 이뿐만이 아니라 연구레벨의 수학문제를 다룰 수 있고, ...
기술 분석
2024. 12. 22
6
1
6
지능의 가격, 0

Situational Awareness: the decade ahead

핵심 내용 요약 본 문서의 핵심은 AI에 급격한 발전과 파급에 대해 사회적 인식과 준비가 미비함을 알리고 경고하는 것에 있습니다. 해당 문서에서 AGI는 대학 졸업생과 유사한 수준의 인공지능을, Superintelligence는 인간의 모든 지적 능력을 초월하여 인간이 이해하거나 통제하기 어려운 수준의 인공지능을 의미 AI 기술 전망 문제에 있어 저자의 발언이 파급력을 가지는 이유를 설명하고자 약력을 추가합니다. AI 기술의 현황 및 향후 2~3년간 전망에 대한 프레임워크를 다루는 Chapter1이 가장 중요합니다. Chapter 2 이후는 AI가 인간의 지적 능력을 초월한 시점에서 발생할 문제를 다룹니다. 따라서 본 요약자료는 Chapter1 위주로 작성되었습니다. 특히, OOMs과 Unhobbling 개념이 중요합니다. 저자 약력 레오폴드 애쉔브레너(Leopold Aschenbrenner)는 통계, 수리, 경제학 전공으로 21년 19세에 콜롬비아 대학을 수석졸업하고, 23년까지 옥스퍼드 대학교의 글로벌 프라이어리티 연구소(Global Priorities Institute)에서 장기 경제 성장에 대한 연구를 수행하였습니다. 이후 OpenAI의 핵심 맴버인 일리아 슈츠케버(Ilya Sutskever)가 이끌고 있던 초정렬(Superalignment) 팀에 입사하고 약 1년간 근무하며 Superintelligence(초지능)AI가 인간의 가치와 목표에 부합하도록 동작하도록 보장하는 연구를 수행하였습니다. 주요 기여로 약한 감독(weak supervision)을 통해 강력한 AI 모델을 제어하는 방법론인 약-강 정렬(Weak-to-Strong Generalization) 접근법이 있습니다. 간단하게 설명해서 초지능의 입장에서 인간은 '부족한 관리자' 입니다. 부족한 관리자의 지도는 초지능의 성능을 하락 시키거나 인간의 의도와 다른 행동을 유발하게 됩니다. 애쉔브레너는 Bootstrapping이라는 통계학 기법을 바탕으로 강력한 generalization 을 이용하여 모델이 인간의 의도대로 행동하게 유도 하였습니다. 이후 OpenAI의 보안 조치가 "심각하게 불충분하다"고 판단하고, 모델 가중치나 알고리즘 비밀이 외부 행위자(특히 중국 정부와 연관된 조직)에게 도난당할 위험성을 경고하는 메모를 작성하여 몇몇 동료와 외부 연구자들에게 공유 하였습니다. 해당 사유로 24년 4월 해고 됩니다. (5월 Superalignment 팀 해산, 팀 리더인 Ilya Sutskever와 Jan Leike 퇴사) 24년 6월 인공지능(AI)의 연구의 최전선에서 지켜본 경험을 바탕으로 향후 10년간 인공지능의 급격한 발전, 특히 범용 인공지능(AGI) 및 초지능으로의 전환이 임박하였고 AGI를 둘러싼 기술적, 경제적, 지정학적 영향을 예측한 "Situational Awareness: the decade ahead" 를 공개 하였습니다. 공식적으로 초정렬팀 리더였던 Ilya Sutskever에게 헌정된 문서입니다. Situational Awareness: the decade ahead 내용 요약 지난 1년 동안, AI 개발 경쟁은 급격히 가속화되며 100억 달러 규모의 컴퓨팅 클러스터에서 조 단위 클러스터로 확장되고 있습니다. 기업들은 10년간 사용할 전력 계약과 변압기를 확보하기 위해 치열하게 경쟁하고 있으며, 미국 산업은 전례 없는 수준의 동원 태세를 갖추고 있습니다. 이로 인해 미국의 전력 생산은 수십 퍼센트 증가할 것이며, 수백만 개의 GPU가 가동될 예정입니다. AGI(범용 인공지능) 경쟁이 본격적으로 시작되었습니다. 2025~2026년에는 기계가 대학 졸업생을 능가하는 지능을 갖게 되고, 10년이 끝날 무렵에는 인간을 초월한 초지능에 도달할 것입니다. 이 과정에서 국가 안보와 관련된 대규모 프로젝트가 시작될 가능성이 높으며, 운이 좋으면 중국과의 경쟁이 될 것이지만, 운이 나쁘면 전쟁으로 이어질 수도 있습니다. 현재 많은 사람들이 AI에 대해 이야기하고 있지만, 대부분은 그 파급력을 제대로 이해하지 못하고 있습니다. 일부 전문가들은 여전히 AI를 단순한 "다음 단어 예측" 정도로 간주하거나 기존 인터넷 기술 수준의 변화로만 인식하고 있습니다. 그러나 소수의 사람들(주로 샌프란시스코와 AI 연구소에 있는 수백 명)은 이러한 상황을 정확히 파악하고 있으며, 과거 AI 발전을 예측했던 이들입니다. 이들이 향후 몇 년간의 변화를 얼마나 정확히 예측할지는 미지수지만, 그들은 역사적인 인물들(예: 실라드, 오펜하이머)과 비교될 만큼 중요한 역할을 할 가능성이 있습니다. AGI, Superintelligence 개발을 맨하튼 프로젝트에 비견할 만한 파급력을 지닐 것이며, 국가 패권의 핵심이 될 것입니다. 1. From GPT-4 to AGI: Counting the OOMs 1-1 OOMs 저자는 지수적 성능 증가를 의미하는 Order of Magnitudes (OOMs) 개념을 이용하여 GPT-4에서 AGI 수준의 AI도달까지 2~3년내 도달 가능함을 주장합니다. OOD 1증가 = 성능 10배 향상 현 상황(GPT-4 ~=...
기술 분석
2024. 11. 24
6
1
32
Situational Awareness: the decade ahead