HBM을 중심으로 한 AI 벨류체인 이익 분석




최근 메모리 가격 상승으로 인해 AI Capex 속도저하 우려가 나오고 있습니다.
메모리 가격이 AI 생태계 전반에 어느정도 영향을 미치는지 알아보기 위해 벨류체인과 메모리 가격에 따른 OPM 민감도를 구해 보았습니다.
오류가 있을 수 있고 대략적인 값이니 참고만 하시기 바랍니다. (혹시 사실이 틀린 내용이 있을 경우 알려주시면 감사하겠습니다.)
AI 벨류체인을 대략적으로 구분하면 다음과 같습니다.
[최종 사용자] - [LLM API] - [GPUaaS/Cloud] - [GPU] - [파운드리] - [HBM]
최신 LLM 모델의 사이즈와 구조가 약 1T MoE이고 엔비디아 VeraRubin에서 서빙한다고 가정합니다. 그럼 아주 대략적인 분석을 해보겠습니다.
4bit으로 양자화된 1T MoE 모델의 Active Parameter는 ~75GB로 서빙을 위해 1개의 VR만 있어도 가능합니다. 그럼에도 속도와 효율을 고려해 일반적으로 사용하는 8장 기준으로 분석합니다. 실재로는 NVL72 + 시스템을 써야합니다. (숫자가 너무 커지고 복잡하니 패스..)
칩의 면적 공정 등으로 추정한 R100칩 하나의 가격은 약 $45~65k 이고, 원가는 약 $7~9k 입니다. 8장 기준 ~$440k(~$64k) 입니다.
랙 시스템의 가격은 통상적으로 GPU가격의 1.6배 수준으로 8장 기준 가격은 ~$700k, 영업이익은 ~$410k정도 됩니다. (OPM59%)
Rubin GPU, VeraCPU, NVSwitch6, ConnectX-9NIC, BlueField-4DPU의 예상 공정과 면적으로 추정한 파운드리 비용은 NVL72 기준 ~$560k입니다.
8개 기준 $62k 매출이 발생합니다. TSMC OPM은 ~51%수준이므로 ~$31k 영업이익이 발생합니다.
HBM의 경우 R100 1장당 288GB(6x48GB)가 들어가며, 개당 ~$600 수준으로 알려져 있습니다. GPU하나당 납품가는 ~$3.6k 입니다. GPU 원가 중 약 50%를 차지한다는 말이 여기서 기인합니다.
8장 ...

결국 AI서버에서의 메모리는 끄덕없어보이는데
그 외 마진이 적은 범용 메모리를 쓰는 가전, 전자제품이 문제가 될것 같네요

그부분은 중국산이 대체하지 않을까 싶습니다. 스마트 디바이스쪽은 가격이 오를거 같구요.



