AI 버블론, 새로운 논거로 등장한 GPU 감가상각 이슈
‘AI 버블’ 논의는 이전의 ‘순환 투자/왼발이 오른발 밟기’ 서사가 약해진 뒤에도 다시 등장했다.
이번엔 GPU 감가상각(depreciation) 문제가 새 논거로 떠올랐다.
이번 주장의 요지는 간단하다.
주요 CSP(클라우드 서비스 제공자)들의 재무제표를 보면, GPU 감가상각 기간이 대부분 6년에 걸쳐 균등 분할되어 있다.
그런데 실제 GPU 사용 수명은 2~3년에 불과하다는 주장이 있다.
이 경우 회계상 이익률이 과대평가되어, AI 클라우드의 진짜 수익성은 낮은데 겉으로는 이익이 높게 보이는 착시가 생긴다는 것이다.
즉 “AI 버블은 GPU 회계 착시다”라는 논리다.
그게 정말일까?
1️⃣ GPU 실제 사용 수명 2~3년설의 근거
이 추정의 주요 근거는 Meta의 Llama 3 기술 보고서로 거슬러 올라간다.
Meta는 2024년 Llama 3.1 405B 모델을 훈련할 때
16,384개의 H100 GPU를 사용했고, 훈련 기간은 54일이었다.
이 기간 동안 기록된 것은 다음과 같다:
총 466회 중단(interruption) 발생, 이 중 419회는 비계획적 장애
평균 3시간마다 1회 장애
유효 훈련 시간은 90% 이상 유지
이 데이터를 바탕으로 계산하면 GPU 연간 고장률(AFR)**은 약 9%,
따라서 3년 누적 고장률은 최소 27%,
즉 3년 내 GPU의 4분의 1 이상이 고장나는 셈이다.
고부하 상태가 지속되면 열로 인한 손상이 커지므로,
시간이 지날수록 실제 고장률은 더 높을 가능성이 있다.
따라서 “훈련용 GPU의 수명이 2~3년”이라는 말은 허황된 이야기가 아니다.
대규모 동기식 학습 환경에서는 GPU 한 대만 고장나도 전체 훈련이 중단되기 때문이다.
비슷한 예로 과거 GPU 채굴(mining) 카드의 3년 고장률도 상당히 높았다.
훈련과 채굴의 공통점은 GPU 사용률이 매우 높다는 점이다.
Llama 3 보고서 외에,
Azure · GCP · AWS 등 다른 CSP들의 GPU 장애율 데이터는 모두 비공개다.
운영비용과 서비스 품질에 직결되는 핵심 영업기밀이기 때문이다.
2️⃣ 그러나 몇 가지 ‘하지만’이 있다
(1) 모든 훈련용 GPU의 ...

