DeepSeek이 정말 큰 문제일 수 있는 이유

DeepSeek의 성능이나 기술을 인정하고, 기술 이외에 크게 2가지 이슈가 있습니다.

$6M 밖에 되지 않는 V3 학습비용 진짜야?

이는 논문에 나와 있듯 '공식적인 학습 비용' 입니다. 물론 타 모델 대비 저렴하긴 하지만, 인프라, 인건비, 리서치 비용을 제외한 최종 1회 학습 비용이라면 납득이 갑니다. 여러번 이야기 드렸지만 리서치는 수많은 Trial and error가 필요합니다. 전체 개발에는 $6M 보다는 월등히 높은 비용이 사용 되었을 것으로 추정합니다.

그럼에도 불구하고 H800 2000장으로 학습했다는 것은 사실로 보입니다. H800의 낮은 메모리 대역을 극복하기 위해 어셈블리 언어부터 작성하여 GPU간 네트워킹을 효율화 하고 FP8 기반의 학습을 통해 메모리 사용을 75% 저감 했습니다. 대부분의 기술이 H800의 낮은 대역폭 극복을 위한 것으로 H800을 사용했다고 보는게 합리적입니다. DeepSeek v2에서 밝혔듯, DeepSeek은 MoE(Mixture of Expert) 설계나 ...

이 주제에 대해 절대 전문가가 아닙니다만, 미국의 방어적인 태도를 보건데 BSPK님 생각에 상당히 공감이 갑니다.

기술에 관해서는 잘 모르지만, 대략 어떤 느낌인지는 알겠습니다. 감사합니다~!

kd의 한계지점에 대한 자료도 있는지요? 선두주자모델로 kd->그모델로 다시 kd-> 이런식으로 거듭하면 비용이 현 수준에서 어디까지 더 낮아질수 있는건지 궁금합니다

어떻게 흘러갈까에 대한 개괄을 깊이 다뤄주신 것 감사합니다.

이 주제에 대해 절대 전문가가 아닙니다만, 미국의 방어적인 태도를 보건데 BSPK님 생각에 상당히 공감이 갑니다.

기술에 관해서는 잘 모르지만, 대략 어떤 느낌인지는 알겠습니다. 감사합니다~!

어떻게 흘러갈까에 대한 개괄을 깊이 다뤄주신 것 감사합니다.

DeepSeek이 정말 큰 문제일 수 있는 이유

DeepSeek이 정말 큰 문제일 수 있는 이유

deepseek에 대한 AI연구자와 월스트릿의 생각 차이

너무 강한 미국 고용

지금 미국은 버블일까?

AI agent의 시대

회원가입만 해도
이 글을 무료로 읽을 수 있어요.

deepseek에 대한 AI연구자와 월스트릿의 생각 차이

너무 강한 미국 고용

지금 미국은 버블일까?

AI agent의 시대

DeepSeek이 정말 큰 문제일 수 있는 이유

DeepSeek이 정말 큰 문제일 수 있는 이유

deepseek에 대한 AI연구자와 월스트릿의 생각 차이

너무 강한 미국 고용

지금 미국은 버블일까?

AI agent의 시대

회원가입만 해도이 글을 무료로 읽을 수 있어요.

deepseek에 대한 AI연구자와 월스트릿의 생각 차이

너무 강한 미국 고용

지금 미국은 버블일까?

AI agent의 시대

회원가입만 해도
이 글을 무료로 읽을 수 있어요.