AI 버블론, 새로운 논거로 등장한 GPU 감가상각 이슈

AI 버블론, 새로운 논거로 등장한 GPU 감가상각 이슈

avatar
크앙
2025.11.13조회수 25회

AI 버블론, 새로운 논거로 등장한 GPU 감가상각 이슈


‘AI 버블’ 논의는 이전의 ‘순환 투자/왼발이 오른발 밟기’ 서사가 약해진 뒤에도 다시 등장했다.

이번엔 GPU 감가상각(depreciation) 문제가 새 논거로 떠올랐다.

이번 주장의 요지는 간단하다.

주요 CSP(클라우드 서비스 제공자)들의 재무제표를 보면, GPU 감가상각 기간이 대부분 6년에 걸쳐 균등 분할되어 있다.

그런데 실제 GPU 사용 수명은 2~3년에 불과하다는 주장이 있다.

이 경우 회계상 이익률이 과대평가되어, AI 클라우드의 진짜 수익성은 낮은데 겉으로는 이익이 높게 보이는 착시가 생긴다는 것이다.

즉 “AI 버블은 GPU 회계 착시다”라는 논리다.

그게 정말일까?



1️⃣ GPU 실제 사용 수명 2~3년설의 근거

이 추정의 주요 근거는 Meta의 Llama 3 기술 보고서로 거슬러 올라간다.

Meta는 2024년 Llama 3.1 405B 모델을 훈련할 때

16,384개의 H100 GPU를 사용했고, 훈련 기간은 54일이었다.

이 기간 동안 기록된 것은 다음과 같다:

총 466회 중단(interruption) 발생, 이 중 419회는 비계획적 장애

평균 3시간마다 1회 장애

유효 훈련 시간은 90% 이상 유지

이 데이터를 바탕으로 계산하면 GPU 연간 고장률(AFR)**은 약 9%,

따라서 3년 누적 고장률은 최소 27%,

즉 3년 내 GPU의 4분의 1 이상이 고장나는 셈이다.

고부하 상태가 지속되면 열로 인한 손상이 커지므로,

시간이 지날수록 실제 고장률은 더 높을 가능성이 있다.

따라서 “훈련용 GPU의 수명이 2~3년”이라는 말은 허황된 이야기가 아니다.

대규모 동기식 학습 환경에서는 GPU 한 대만 고장나도 전체 훈련이 중단되기 때문이다.

비슷한 예로 과거 GPU 채굴(mining) 카드의 3년 고장률도 상당히 높았다.

훈련과 채굴의 공통점은 GPU 사용률이 매우 높다는 점이다.

Llama 3 보고서 외에,

Azure · GCP · AWS 등 다른 CSP들의 GPU 장애율 데이터는 모두 비공개다.

운영비용과 서비스 품질에 직결되는 핵심 영업기밀이기 때문이다.



2️⃣ 그러나 몇 가지 ‘하지만’이 있다


(1) 모든 훈련용 GPU의 ...

회원가입만 해도
이 글을 무료로 읽을 수 있어요.

이미 계정이 있으신가요?로그인하기
댓글 0
avatar
크앙
구독자 1명구독중 27명
일단 해봄