AI 데이터센터의 규모와 성능은 어떤 지표로 보아야할까 (feat. SpaceXAI 의 Colossus)




지난 5월 6일, SpaceXAI 가 앤트로픽에 Colossus 1이라는 AI 슈퍼컴퓨터를 공급하는 계약을 체결했다.
SpaceXAI has signed an agreement with Anthropic to provide access to Colossus 1, one of the world’s largest and fastest-deployed AI supercomputers.
SpaceXAI 는 앤트로픽과 협약을 체결하고, 세계에서 가장 규모가 크고 가장 빠르게 구축된 AI 슈퍼컴퓨터 중 하나인 ‘콜로서스 1’에 대한 접근 권한을 제공하기로 했다.
출처: New Compute Partnership with Anthropic | x.ai
그런데 단어 하나가 눈에 띈다. 왜 ‘AI 데이터센터’가 아니라 ‘AI 슈퍼컴퓨터(AI supercomputers)’라고 표현했을까? 이는 앨론 머스크가 콜로서스를 이야기할 때 데이터센터라는 인프라적인 관점이 아니라 AI 모델 학습 및 추론이라는 단일 목적에 최적화되었다는 컴퓨팅적인 관점으로 바라보고 있고 이를 강조하고 싶어서 그런게 아닐까 생각한다.
AI 이전의 ‘데이터센터’는 도서관이나 창고처럼 데이터를 저장하고 필요할 때 꺼내주는 스토리지(Storage)의 역할이 컸다. 하지만 AI 가 급부상함에 따라 AI 학습 및 추론을 할 수 있는 대규모 서버들이 필요해졌고 이를 위한 대규모 GPU 를 갖춘 데이터센터를 ‘AI 데이터센터’라고 부르기 시작한 듯하다. IREN 같은 회사는 자신들이 제공하는 서비스를 ‘슈퍼컴퓨터'가 아닌 ‘데이터센터'라고 부른다. 이는 단순히 AI 컴퓨팅 뿐 아니라 수많은 GPU 를 수용하기 위해 지어진 거대한 건물, 운영에 필요한 전력 수급, 냉각 시설과 변전소 등의 인프라를 제공한다는 것을 강조하기 위함으로 보인다.

출처: IREN 공식 홈페이지
반면, SpaceXAI 의 콜로서스는 AI 학습과 추론에 극도로 최적화된 기술을 강조하기 위해 ‘슈퍼컴퓨터'라는 표현을 쓰는 듯하다.

출처: x.ai 공식 홈페이지
콜로서스가 내세우는 핵심지표도 AI 라는 단일 목적을 위한 슈퍼컴퓨팅에 집중되어 있다. 과거의 컴퓨팅에서 단일 칩의 성능이 중요했다면, 현대의 거대 언어 모델(LLM) 학습을 위해서는 수많은 서버를 하나로 묶어서 만들어지는 거대한 시스템의 성능이 중요해졌다. 이러한 거대한 시스템을 구동하기 위한 핵심 파이프라인은 연산, 전송, 동기화, 데이터 원천(스토리지)이다. 따라서 콜로서스는 연산 엔진의 크기를 의미하는 GPU 개수, 연산 속도의 병목 중 하나인 전송과 관련된 메모리 대역폭(Memory Bandwidth), 수많은 서버가 하나의 거대한 컴퓨터처럼 움직이게 하는 동기화에 핵심이 되는 네트워크 대역폭(Network Bandwith), 학습의 재료가 되는 데이터 창고의 크기인 저장소 용량(Storage capacity), 이렇게 네 가지 지표를 전면에 내세우고 있다.

콜로서스가 내세우는 네 가지 지표를 하나씩 살펴보자.
첫번쨰 지표. GPU 개수 (Number of GPUs)
20만개라는 GPU 수는 연산 엔진의 크기를 의미한다. 이는 단순히 개수가 많다는 것을 넘어서 AI 의 학습의 각 단계(iteration)에서 처리할 수 있는 파라미터의 양과 배치 크기(=학습 속도와 연관된 지표)를 결정짓는 직접적인 척도이다. 이 지표가 가장 먼저 배치된 이유는 슈퍼컴퓨터의 엔진 규모를 증명하는 가장 직관적인 체급 지표이기 떄문이다.
두번째 지표. 메모리 대역폭 총합 (Total Memory Bandwidth)
메모리 대역폭(194 petabytes/s)은 엔진에 데이터를 공급하는 내부 파이프라인의 총 유량(bandwitdh)을 의미한다. 최근 LLM 학습에서는 GPU 자체의 연산 속도보다 데이터가 메모리에서 연산 엔진으로 이동하는 속도에 더 큰 제약을 받고 있다고 하며 이를 ‘메모리 바운드(Memory-bound)의 ...

감사합니다

감사합니다!

좋은 공부가 되었습니다. 감사합니다!

알렉스냥맘님, 오랜만에 인사드리네요
감사합니다!


