CES 2026에서 엔비디아의 CEO 젠슨 황의 연설이 있었습니다. 풀영상 링크는 다음과 같습니다: https://www.youtube.com/watch?v=JvcnxdA10-0
저는 젠슨 황이 AI 컴퓨팅의 마지막 병목 구간으로 '스토리지'를 지목했다는 사실에 주목했습니다. 젠슨 황의 말을 따르면, 스토리지 기능은 단순한 저장 용량의 확대를 넘어, 스토리지가 AI의 실시간 추론 과정에 직접 참여하는 '작업 기억(Working Memory)'으로 재정의되어야 한다고 주장합니다.
컴퓨팅 병목의 이동: 스토리지(Storage)
지난 2년간 AI 인프라 투자는 GPU의 연산 능력과 고대역폭 메모리(HBM)의 대역폭 확보에 집중되었습니다. 그 이유는 학습을 위해 고성능 연산이 요구되었기 때문입니다. 폰 노이만 구조로 인해, GPU 연산에는 메모리 반도체가 필요합니다. 이에 따라 GPU와 HBM 수요가 꾸준히 증가했습니다. 요즘 저의 관심사는 AI 추론입니다. 최근 AI 인프라는 Training에서 Inference으로 넘어가면서 '성능'보다, '짧은 응답의 지연시간, 전력효율'을 높일 수 있는 ASIC 및 광학솔루션이 중요해지고 있습니다. 그런데 젠슨 황은 LLM에서 Agentic AI로 진화하는 과정에서 스토리지의 중요성을 강조하여 신선한 충격이었습니다.
젠슨 황의 논리는 이렇습니다. 이제 Agentic AI로 진화하며 수백만 토큰에 달하는 긴 문맥(Long Context)을 처리하게 됨에 따라 새로운 문제에 직면했습니다. 즉 '컨텍스트(Context)가 새로운 병목'이라고 언급했습니다. 이를 풀어서 설명하기 위해서는 2가지 개념을 알고 넘어가야 합니다.
KV 캐시(Key-Value Cache) - 대규모 언어 모델(LLM)이 텍스트를 생성(추론)할 때, 이전에 계산했던 각 토큰의 키(Key)와 값(Value) 벡터를 저장해두고 재사용함으로써...

