중국의 AI 스타트업 DeepSeek이 오픈소스 LLM인 DeepSeek-V3를 출시하며 주목받고 있습니다. 이 모델은 더 저렴한 비용으로 GPT와 동등하거나 더 나은 성능을 제공하며, 특히 중국어와 수학 작업에서 뛰어난 결과를 보여줍니다. DeepSeek-V3는 혼합 전문가(Mixture-of-Experts) 아키텍처를 기반으로 6710억 개의 파라미터 중 작업별로 370억 개만 선택적으로 활성화해 이전 모델 대비 3배 빠른 처리 속도를 자랑합니다. 또한, 약 557만 달러의 비용으로 훈련을 마쳐, Meta의 Llama 3.1 훈련비용인 약 5억 달러와 비교해 압도적인 비용 효율성을 입증했습니다. (출처: 차마스 팔라하티야 뉴스레터)


