DeepSeek이 정말 큰 문제일 수 있는 이유

BSPK
2025.01.29조회수 5회

BSPK
구독자 492명구독중 9명
전자전기공학 박사, AI 연구자를 거쳐 전략기획 업무를 합니다.
기술의 발전이 가져올 세상의 변화를 먼저 포착하고 전달하고자 합니다.


DeepSeek의 성능이나 기술을 인정하고, 기술 이외에 크게 2가지 이슈가 있습니다.
$6M 밖에 되지 않는 V3 학습비용 진짜야?
이는 논문에 나와 있듯 '공식적인 학습 비용' 입니다. 물론 타 모델 대비 저렴하긴 하지만, 인프라, 인건비, 리서치 비용을 제외한 최종 1회 학습 비용이라면 납득이 갑니다. 여러번 이야기 드렸지만 리서치는 수많은 Trial and error가 필요합니다. 전체 개발에는 $6M 보다는 월등히 높은 비용이 사용 되었을 것으로 추정합니다.

그럼에도 불구하고 H800 2000장으로 학습했다는 것은 사실로 보입니다. H800의 낮은 메모리 대역을 극복하기 위해 어셈블리 언어부터 작성하여 GPU간 네트워킹을 효율화 하고 FP8 기반의 학습을 통해 메모리 사용을 75% 저감 했습니다. 대부분의 기술이 H800의 낮은 대역폭 극복을 위한 것으로 H800을 사용했다고 보는게 합리적입니다. DeepSeek v2에서 밝혔듯, DeepSeek은 MoE(Mixture of Expert) 설계나 ...

이 주제에 대해 절대 전문가가 아닙니다만, 미국의 방어적인 태도를 보건데 BSPK님 생각에 상당히 공감이 갑니다.

기술에 관해서는 잘 모르지만, 대략 어떤 느낌인지는 알겠습니다. 감사합니다~!

kd의 한계지점에 대한 자료도 있는지요? 선두주자모델로 kd->그모델로 다시 kd-> 이런식으로 거듭하면 비용이 현 수준에서 어디까지 더 낮아질수 있는건지 궁금합니다

어떻게 흘러갈까에 대한 개괄을 깊이 다뤄주신 것 감사합니다.


