클로드 코드(Claude Code)와 같은 에이전트 AI의 등장은 컴퓨팅 패러다임을 뿌리째 흔들고 있습니다. 이제 핵심은 단순한 ‘추론 능력’을 넘어, ‘방대한 맥락을 얼마나 효율적으로 유지하는가’로 이동하고 있습니다. AI 인프라의 거대한 흐름을 4가지 핵심 축으로 정리했습니다.
1. 메모리 계층 구조의 대변화 :HBM에서 SSD까지의 ‘티어링’
현재 AI 추론은 모든 KV 캐시(대화 맥락 데이터)를 가장 비싼 HBM에 넣으려다 보니 비용과 용량의 한계에 봉착했습니다. 앞으로는 데이터의 중요도에 따라 거처를 정해주는 계층형 아키텍처가 표준이 될 것입니다.
Hot Data (HBM): 실시간 연산에 필요한 핵심 토큰 배치.
Warm Data (CXL DRAM): 직전 대화나 곧 쓰일 맥락을 저장. HBM보다 저렴하면서 용량 확장이 용이.
Cold Data (SSD): 과거 이력이나 대규모 문서를 보관하는 ‘KV 오프로딩(Offloading)’ 장소.
Insight: 고가의 GPU를 무한정 늘리는 대신, 저렴한 DRAM과 SSD를 조합해 운영 비용(TCO)을 극적으로 낮추는 방향으로 갑니다.


