프리미엄
예측대회
투자분석
아카데미
커뮤니티
로그인Valley AI 시작하기시작하기
Valley Space인기
DeepSeek-V3에 대해 알아보기...
자꿈두AI 기술

DeepSeek-V3에 대해 알아보기...

avatar
자꿈두
2025.02.03조회수 12회
avatar
자꿈두
구독자 9명구독중 5명
비판적으로 세상을 바라보지만 혁신적인 미래에는 낙관적인 투자자입니다. 찰리멍거와 워런 버핏의 투자 철학을 존경하며 지향하는 투자 철학을 가지고 있습니다.

DeepSeek-V3는 High-Flyer AI 헤지 펀드에서 분사한 중국 AI 연구 회사인 DeepSeek AI에서 개발한 대규모 언어 모델(LLM)입니다. 2024년 12월에 출시한 이 모델은 인상적인 성능과 비용 효율성으로 큰 주목을 받고 있습니다.


image.png

Architecture

DeepSeek-V3는 각 입력에 대해 매개변수의 일부만 활성화하여 효율성을 높이는 Mixture-of-Experts (MoE) 아키텍처를 기반으로 합니다. 동적 리소스 할당을 통해 모델은 다양한 작업과 복잡성에 적응하여 성능과 에너지 소비를 모두 최적화할 수 있다고 이야기합니다. 6,710억 개의 매개변수를 가지고 있으며, 각 토큰당 370억 개의 매개변수를 활성화시키는 대규모 언어 모델입니다.


이미 DeepSeek-V2에서 검증된 비용 효율적인 추론 구조인 Multi-head Latent Attention(MLA) 구조와 DeepSeekMoE는 V3 모델에서도 계속 채택되어 사용주입니다. 이러한 두 가지 아키텍처는 DeepSeek-V2(DeepSeek-AI, 2024c)에서 검증되었으며, 효율적인 훈련과 유지하면서도 강력한 모델 성능을 유지할 수 있음을 증명하였다고 합니다.


image.png
  • Multi-head Latent Attention(MLA): 이 메커니즘은 관련된 Key-Value 쌍을 압축하여 추론 중 메모리 소비를 줄입니다. 나중에 쉽게 기억할 수 있도록 핵심 정보를 요약하는 메모 작성 시스템이라고 생각하면 됩니다. 이를 통해 더 큰 Context Window와 더 효율적인 처리가 가능해집니다.

  • DeepSeekMoE: MoE 아키텍처를 기반으로 작동하는 DeepSeek의 MoE 알고리즘입니다. 크게 두 가지 전략을 사용합니다.

    1. 세분화된 전문가 분할: DeepSeekMoE는 각 전문가를 더 작고 특화된 부분으로 나눕니다. 각 전문가 팀은 특정 작업에 특화되어 있어, 필요한 정보를 빠륵 정확하게 처리할 수 있습니다.

    2. 공유 전문가 분리: 모든 작업에 공통적으로 필요한 지식을 처리하는 특별한 그룹입니다. 여러 파트에서 필요로 하는 정보를 제공합니다. 이를 통해 정보의 중복 저장을 방지하고, 각 전문가는 고유한 전문 분야에 집중할 수 있도록 합니다.

DeepSeek V3는 V2에 적용된 위 아키텍처 이외에도 더욱더 효율적인 알고리즘의 개선이 있었습니다.

  • Auxiliary-loss-free load balancing: 이 전략은 기존 MoE 모델의 일반적인 문제인 성증 저하 없이 균형 잡힌 전문가 로드를 보장하게 합니다. 기존 MoE 모델에서는 특정 전문가에게 과도한 작업이 몰리는 것을 방지하기 위해 Auxiliary loss 방식을 사용했습니다. 하지만 Auxiliary loss는 모델 학습에 불필요한 gradient를 발생시켜 성능을 저하시키는 문제가 있었습니다. DeepSeek-V3는 Auxiliary loss 대신 각 전문가의 Bias를 동적으로 조정하여 로드 밸런싱을 달성합니다. 아래와 같은 방식으로 DeepSeek-V3는 Aux loss 없이도 전문가들의 작업량을 균등하게 분배하여 효율적인 학습을 가능하게 합니다.

    • 각 전문가는 입력 토큰에 대한 'Routing Score'를 가지고 있습니다.

    • Auxiliary-loss-free load balancing은 각 전문가의 Routing Score에 ...

회원가입만 해도
이 글을 무료로 읽을 수 있어요.

Basic 7일 무료 체험 시작하기
이미 계정이 있으신가요?로그인하기
댓글 0개
아직 작성된 댓글이 없습니다.
AI 기술 카테고리의 다른글

Knowledge Distillation

중국의 AI 스타트업 딥시크는 대규모 언어 모델인 Deepseek R1 모델을 공개함으로써 AI 커뮤니티에 큰 파장을 일으켰습니다. 이 모델은 OpenAI의 GPT와 같은 선도적인 모델에 필적하는 성능을 자랑하면서도 비용과 훈련 시간은 훨씬 적게 소요되었다고 합니다. 딥시크가 활용했다고 주장되는 기술 중 하나는 "Distillation" 입니다. Distillation의 메커니즘, 이점, 단점 등을 알아보겠습니다. Knowledge Distillation(KD)는 더 작고 단순한 모델("Student")이 더 크고 복잡한 모델("Teacher")의 행동을 모방하도록 학습하는 기술입니다. 방대한 양의 데이터로 훈련된 "Teacher" 모델은 해당 데이터 내의 기본 패턴과 관계애 대한 풍부한 이해를 가지고 있습니다. 더 작은 크기의 감소된 복잡성을 가진 "Student" 모델은 "Teacher"의 성능을 복제하여 효과적으로 지식을 상속받도록 훈련됩니다. 이 개념의 기원은 2006년에 발표된 "Model Compression"이라는 논문에서 찾을 수 있습니다. Caruana 등은 당시 최첨단 분류 모델이었던 수백 개의 기저 분류기로 구성된 대규모 앙상블 모델을 사용하여 방대한 데이터셋에 라벨을 부여한 후, 이 새롭게 라벨된 데이터셋을 이용해 단일 신경망을 전통정인 지도 학습 방식으로 훈련하였고, 이렇게 만들어진 압축 모델은 기존 모델보다 천 배 작고 빠름에도 불구하고 앙상블 모델과 동등한 성능을 보였습니다. ...
AI 기술
2025. 02. 02
4
3
5

Google의 새로운 AI 아키텍쳐 Titans (AI에 대한 새로운 혁신?)

인공지능(AI)의 기술 발전은 유래를 찾아보기 힘들 정도로 빠른 속도로 진화되고 있습니다. 현재 인공지능 혁신을 이끌어 낸 것은 단연 2017년에 발표된 Transformer 알고리즘을 이야기할 수 있습니다. 당시 구글에서는 'Attention is All You Need'라는 논문을 발표하며 이전까지 자연어 처리에 주로 사용되던 RNN(Recurrent Neaural Network) 기반 모델의 한계를 지적하고, 어텐션 메커니즘만을 사용하는 새로운 모델을 제시했습니다. 트랜스포머 모델의 핵심은 어탠션 'Attention' 입니다. 어텐션은 마치 사람이 문장을 읽을 때 중요한 단어에 집중하는 것처럼, 모델이 입력 문장에서 중요한 부분에 집중하여 정보를 처리하도록 하는 메커니즘입니다. 트랜스포머는 입력 문장을 분석하여 각 단어의 의미를 담은 벡터로 변환하는 인코더 부분과, 인코더에서 생성된 벡터를 바탕으로 번역된 문장이나 요약된 문장을 생성하는 디코더 부분으로 구성됩니다. 어텐션은 쿼리(Queary), 키(Key), 값(Value) 이 세가지 요소를 사용합니다. 쿼리는 현재 집중해야 할 단어입니다. 키는 문장 내 다른 모든 단어입니다. 값은 각 키에 해당하는 정보입니다. 어텐션 메커니즘은 쿼리와 각 키의 유사도를 계산하여, 유사도가 높은 키에 해당하는 값에 더 큰 가중치를 부여합니다. 이렇게 하면 쿼리와 관련된 정보에 더 집중하여 문맥을 더 잘 이해할 수 있습니다. 그러나 트랜스포머 알고리즘에는 한계가 존재하였는데요, 긴 문장이나 문서를 다룰 때 앞부분의 정보를 잊어버리거나, 전체 맥락을 파악하는 못하는 경우가 발생하였습니다. 그 이유는 아래 세 가지로 이야기 할 수 있습니다. 제한된 Context Window: 트랜스포머 알고리즘은 입력 데이터를 일정한 크기의 'Window'로 나누어 처리합니다. 이 Window의 크기가 제한되어 있기 때문에 긴 문장이나 문서를 처리할 때 앞부분의 정보가 Window로 밀려나 잊혀질 수 있습니다. 어텐션 메카니즘의 한계: 트랜스포머의 핵심 기술인 어텐션 메커니즘은 문장 내 모든 단어 간의 관계를 파악하여 문맥을 이해합니다. 하지만 문장이 길어질수록 단어 간 관계가 복잡해지고, 어텐션 메커니즘이 모든 관계를 정확하게 파악하기 어려워집니다. 계산 복잡성: 어텐션 메커니즘은 계산량이 많기 때문에 긴 문장을 처리할 때 시간이 오래 걸리고 메모리 사용량도 증가합니다. 이는 트랜스포머 모델의 학습 속도를 늦추고, 더 큰 컨텍스트 창을 사용하기 어렵게 만듭니다. 결론적으로 트랜스포머의 출력은 Context Window 내 토큰 간 직접적인 의존성에만 기반하여 조건부로 생성됩니다. 이러한 의존성의 정확한...
AI 기술
2025. 01. 20
10
11
13
Google의 새로운 AI 아키텍쳐 Titans (AI에 대한 새로운 혁신?)