FT. 빅테크 CEO들의 엄청난 추론 수요와 반도체 수요 가이던스 그리고 HBM인 이유에 대하여...
첫 시작은..
NVDA 블랙웰이 많이 필요한 LLM 모델 학습이
자본을 갈아 넣어도 성능은 그만큼 증가하는 것이 아닌
특정 수준에 수렴하는 모습을 보이고 있으며,
이제는 학습이 아닌 추론으로 AI 산업이 빠르게 넘어가는 모습에,
곧 데이터센터 역량이 남아도는 것은 아닐까 하는 의문이 들었다.
추론은 gpu 연산이 많이 필요하지 않으니 말이다.
그런데 젠슨황은 여전히 부족하다고 그러고 있으니...
장사치의 발언인지 진실인지 알아볼 필요가 있었다.
몇 날 조사하고 교차 검증하고 한 내용을
긴 글을 싫어하여
짧은 문체로 Recall을 위한 생각 정리 노트이다.
기술 설명과 데이터가 부족하며(전문가 분들의 첨언도 감사하겠습니다.)
방대한 양을 스캔하다 보니
소주제마다 반대 관점에 대한 생각이 미흡한 부분이 많아
여전히 생각해 보아야 할 부분이 많다는 점 참고 부탁드립니다.
📑 목차 (Table of Contents)
[시장 트렌드] 메모리 수요 폭발의 진짜 이유 (Agentic AI)
[기술의 본질] 학습(Training) vs 추론(Inference)의 디테일
[하드웨어 병목] 0.04초의 딜레마와 메모리 월(Memory Wall)
[아키텍처 혁신] HBM을 대체할 수 있을까? (CXL, NAND, PIM, SRAM)
[매크로 리스크 1] 유동성 블랙홀과 수요 붕괴 (디플레이션의 역설)
[매크로 리스크 2] 세쿼이아 캐피탈의 경고: "6,000억 달러의 질문"
[미래 패러다임] 스마트폰 속 초지능을 위한 넥스트 스텝
[투자 전략] 사이클의 이해와 생존 전략 (총결론)
1. [시장 트렌드] 메모리 수요 폭발의 진짜 이유
엔비디아 중심의 시장에서 왜 자꾸 '메모리'가 주인공으로 떠오르는가?
Agentic AI (초개인화 에이전트): 단순 문답을 넘어 내 과거 기록, 동영상, 성향을 모두 기억하고 알아서 실행하는 비서의 등장.
컨텍스트 엔지니어링 (Context Engineering): AI에게 배경지식(수천 장의 문서, 영상 등)을 통째로 쥐여주고 질문하는 방식.
KV 캐시 (핵심): AI가 내 긴 프롬프트와 대화 맥락을 까먹지 않기 위해 임시로 저장하는 메모리 공간.
문제점: 모델 용량(140GB)보다 수만 명의 접속자가 쏟아내는 'KV 캐시' 용량이 HBM을 터뜨리는 주범이 됨. (산술급수 아닌 기하급수로 용량 폭증)
💡 권력 이동? (갑을 역전 가능성)
메모리(삼성/하이닉스)의 중요성과 이익은 급증하겠지만,
엔비디아(CUDA 생태계 독점)를 넘어설 수는 없음.
메모리는 결국 '대체 가능한 공장 비즈니스'의 한계가 존재함.
2. [기술의 본질] 학습(Training) vs 추론(Inference)의 디테일
AI가 작동하는 두 단계, 왜 필요한 하드웨어가 다를까?
① 학습 (Training): "GPU 코어가 뼈 빠지게 일하는 구간"
원리: 빈 뇌(가중치)에 수천억 개 데이터를 밀어 넣고 700억 개 수식을 계속 깎아나가는 과정.
GPU가 24,000대나 필요한 이유(META LAMA): 모델 저장을 위해 필요한 게 아님. H100 1대가 1,000조 번 연산해도 혼자 하면 수백 년이 걸리므로, '마감 기한'을 맞추기 위해 2만 대를 병렬로 연결해 몇 달간 돌리는 것.
병목: 연산력 (Compute-bound). 계산량이 너무 방대해서 메모리가 데이터를 줘도 코어가 계속 바쁨.
② 추론 (Inference): "메모리가 부족해서 GPU 코어가 노는 구간"
원리: 학습된 함수(140GB)에 내 질문을 넣고 단어 하나씩(Auto-regressive) 뱉어내는 과정.
병목: 데이터 전송 속도 (Memory-bound). 코어는 0.001초 만에 계산을 끝내는데, 다음 데이터를 가져오는 데 0.040초가 걸려서 대부분의 시간을 '대기(Idle)'함.
3. [하드웨어 병목] 0.04초의 딜레마와 메모리 월(Memory Wall)
가장 이해하기 어려웠지만 가장 중요한 '도마와 창고' 비유
H100 칩의 ...
