

'내 스페이스'에 탈레스 테이세이라의 디커플링을 읽은 독후감을 남기려고 했는데, 본의아니게 게시글 피드에 글이 연동되며(혼란의 시작), 글에 대한 것들을 소개 하지않으면 안될것 같은생각이 들게 되는군요. 이 글은 단순히 "디커플링"을 읽고나서 끄적이게 된 독후감성 글이고, 쿠버네이츠에서 발간한(아마도 2026년 4월) GPU 가동률 5%라는 수치에서 문제의식을 느껴 작성하기 시작했던 글입니다. 처음에는 단순 업로드하고 저장을 했었으나 조회수가 많진 않아 다행이긴 하지만,,,,어쩄든 한분 한분 늘어가다보니 부담을 못이기고 안내글을 이렇게 남기게 되었습니다.
이 글은 단순히 제 뇌피셜이고 개인의견이며, 스페이스에 글을 남겨 보관하고자 하는 차원이오니(보관용) 혹여 지나가다 읽으시더라도 너무 복잡하게 생각하지 마시길 당부드립니다.
기승전결 중 "결" 만 말씀드리자면 저는 Service NOW를 매수하였습니다.
이글에 자세히 소개되진 않지만 NOW를 매수한 동인은....... SaaS to SAS(Service-as-Software)로써 살아남을 기업이라고 판단했으며, 확률분포적 결정을 내리는 AI가 하지 못할 워크 프로세스와 컴플라이언스 측면을 고려하였습니다. 저는 범용AGI가 아닌 특화AI로 움직임이 있을거라고 생각하고 있습니다(바벨탑이 무너지고 건축공학이 발전한것 처럼... 연금술은 허상이었지만 화학이 발전한것처럼...). 그리고 그 특화 AI의 중심에는 ASIC이 있을것이며, 인간의 결정과 책임구조는 여전히 존재하리라 생각하고 있습니다. 그리고 소프트웨어와 AI의 공존관계에서 소프트웨어는 인간의 손역할(정확한 인풋과 아웃풋, 효율적이고 효과적이며 정확한 결과물)을 할것이라고 생각하고 있습니다. 어쩌다보니 조금더 끄적끄적 ...해버렸네요. 즐거운 밤되세요~!
Cast AI의 2026 State of Kubernetes Optimization Report의 평균 GPU 가동률 5%라는 통계수치를 통해 드러난 (i) AI 인프라 시장의 구조적 비효율과 (ii) 산업 행위자들의 인센티브 관계, (iii) 하드웨어-알고리즘 발전관계(Hardware Lottery), 그리고 (iv) 차세대 컴퓨팅 패러다임 전환의 함의를 분석한다. 핵심 결론을 다섯 가지로 요약하면 다음과 같다.
[결론 1] 현재 시장이 인식하는 GPU 부족은 상당 부분 과장되어 있는 것으로 보인다. 5% 가동률(엔터프라이즈 쿠버네티스 표본) 또는 30~50%(잘 운영된 클러스터)라 가정해도, 이 수치는 GPU자원 포화 상태와는 거리가 멀다. 오히려 GPU 부족 서사가 시장의 비효율을 가리고 정당화하는 측면이 있다고 판단된다.
[결론 2] 비효율의 주요 원인 중 하나는 산업 스택 전반의 약한 인센티브 정렬이다. GPU 밸류체인의 주요 플레이어별 인센티브 구조는 클라우드 사업자(시간당 과금), 모델 랩(품질 경쟁), 엔터프라이즈(출시 속도), NVIDIA(신세대 칩 판매)이며, 어떤 플레이어도 기존 자원을 끝까지 짜내는 행위에 대한 적절한 보상 구조가 형성되지 않았다. 이는 지금까지의 시장이 사적 최적과 사회적 최적이 어긋난 구조였음을 보여준다. 다만 이런 misalignment는 영속적이지 않고 가격 경쟁, 자체 ASIC 확산, FinOps 도구 보급, 효율성 차별화 경쟁 등을 통해 해체가 진행되고 있는 것으로 보인다. 비효율이 여전히 존재하는 것은 사실이지만, 앞으로도 비효율이 구조적으로 존재할 것이라고 단정하기보다는 이행기적 현상으로 점진적으로 해소되어 나갈 가능성이 크다고 생각된다.
[결론 3] 산업 생태계에서 '본질적 병목'이라 부르는 다수의 제약(HBM 부족, KV 캐시 메모리 풋프린트, 메모리 대역폭)은 사실 GPU 아키텍처가 만들어낸 그림자에 가깝다고 생각한다. 다만 이 그림자 병목들이 ASIC 도입만으로 자동 해소되지는 않는다는 점은 고려해야 한다. 진정한 해소 동인은 ASIC이 가능하게 하는 새로운 알고리즘 아키텍처 (Mamba/SSM 등)의 등장이며, 따라서 그림자 병목의 해소는 하드웨어 전환과 알고리즘 전환의 공진화에 달려 있다고 판단된다. 진정한 병목은 첨단 패키징(TSMC CoWoS), 전력, 데이터센터 설계, 인재, 소프트웨어 표준화이다.
[결론 4] 큰 틀에서 보면 GPU도 ASIC의 한 형태(범용성을 위해 효율을 일부 포기한 ASIC)로 볼 수 있다. 보다 정확한 표현은 "범용 스펙트럼의 ASIC에서 특화 스펙트럼의 ASIC으로의 분포 이동"이라고 판단된다. Sara Hooker가 주장한 Hardware Lottery 원리에 따라, 알고리즘은 자기가 잘 돌아가는 하드웨어 쪽으로 진화한다. 현재 하이퍼스케일러와 모델 랩이 ASIC에 베팅(Google TPU, AWS Trainium, Microsoft Maia, Meta MTIA)하고 있다는 사실 자체가 다음 세대 알고리즘이 ASIC 친화적으로 진화할 가능성이 크다는 신호로 본다. 다만 2026년 현재 프런티어 모델은 여전히 트랜스포머 기반이며, 아키텍처 전환은 향후 3~5년에 걸친 점진적 가능성으로 평가된다.
[결론 5] AI 인프라 밸류체인에서 가장 매력적인 노드는 ASIC 소프트웨어 표준화 (컴파일러/IR 층위)라고 생각한다. 이 표준이 형성되어야만 특화 AI 시장이 사일로[1]의 집합에서 연결된 군도[2]로 진화할 수 있기 때문이다. 다만 표준화가 자동으로 권력 분산을 가져온다고 단정하기는 어렵다. 인터넷의 역사가 보여주듯 분권화 비전이 결국 GAFAM 집중으로 귀결된 사례도 있다. 따라서 권력 분산은 가능성으로 다루되 보장된 결과로 단정하지 않는 편이 적절하다.
Cast AI가 2026년 4월 발표한 보고서에 따르면, AWS·GCP·Azure 전반의 약 23,000개 쿠버네티스 클러스터에서 측정한 평균 GPU 가동률은 5%이다. CPU는 8%, 메모리는 20% 수준이었다. 이는 추정치가 아닌 실측 데이터이다.
물론 이 5% 수치에는 표본 편향이 있다. Cast AI는 쿠버네티스 최적화 소프트웨어를 판매하는 회사이며, 측정 대상은 자사 에이전트가 설치된 "최적화 적용 전" 클러스터이다. 정의상 최적화 문제를 안고 있는 조직들의 표본이다. 프런티어 랩의 학습 클러스터(MFU 30~50%)나 vLLM 등 최신 스택으로 잘 운영되는 인퍼런스 클러스터(40%+)는 이 표본에 포함되지 않는다.
보수적으로 평균 가동률을 40%로 가정하더라도, 동일한 칩으로 2.5배의 처리량을 뽑을 여지가 남아 있다. GPU 부족이 본질적 병목이라 주장하려면 가동률이 수요를 충족하지 못할 만큼 포화 상태여야 한다는 논리 기준에 비춰볼 때, 현재 시장 상태는 부족이 아니라 비효율이 있고 우리는 이 비효율을 바라보지 않은 상태에서 GPU부족이라는 현상만을 좇고 있다.
가동률은 개념적으로 ‘실제 GPU 사용시간 / 보유 GPU 총 가용 시간’이다. 하이퍼스케일러가 GPU 보유량을 연 2~3배 증설하는 동안 신규 칩이 워크로드를 즉시 흡수하지 못하면, 분모는 폭증하고 분자는 따라가지 못해 평균 가동률이 자연 하락한다. 다만 Cast AI 보고서의 CPU 가동률 10%→8%, 메모리 23%→20% 데이터와 같이 시간이 지날수록 가동률이 더 악화되는 추세성이 관찰된다는 것은 단순히 분모 증가만의 문제가 아니라 속된 말로 놀고있는 칩이 존재한다는 것을 시사한다. 만약 GPU부족이 실제로 맞는 이야기라 하더라도, 이 가동률 자체는 "못 쓰고 쌓이는 칩이 가동률을 끌어내릴 만큼 많다"는 것을 의미하고 이 자체로 GPU 부족 서사가 반박 된다.
AI 인프라 비효율의 핵심 동인은 산업 스택 전반의 약한 인센티브 정렬이었다. 클라우드 사업자, 모델 랩, 엔터프라이즈, NVIDIA 어느 층위에서도 "기존 자원을 끝까지 짜내는" 행위가 우선순위로 다뤄지지 않았기 때문이다. 다만 이 구조는 영속적이지 않으며, 현재 빠르게 해소되고 있는 것으로 판단된다.
모델 랩 (OpenAI, Anthropic, Google DeepMind): 벤치마크 경쟁이 외부 가시성과 펀딩 사이클을 지배하는 구조상, 효율 혁신은 자원 배분 우선순위에서 뒤로 밀리는 경향이 있다. 다만 토큰 단가가 경쟁의 핵심 축이 되면서(DeepSeek, Anthropic 캐싱, OpenAI o-시리즈 사례) 효율 자체가 제품 차별화 요소로 격상되는 중이며, 추론 효율 엔지니어에 대한 보상 격차도 빠르게 축소되고 있다.
엔터프라이즈 고객: 개발 속도와 출시 시점이 우선순위를 지배했으며, 인프라 효율은 후순위에 머물렀다. CFO의 비용 문제 제기에 대해 CTO가 "경쟁 열위 리스크"를 방어 논거로 활용하는 패턴이 보편적이었다. 다만 이 역학구조는 약화되는 중이긴 하다. AI ROI 증빙 요구 강화, FinOps for AI 도구 보급, 저비용 모델(DeepSeek 등) 등장으로 "AI는 비싸도 어쩔 수 없다"는 논거의 설득력이 빠르게 침식되고 있다.
NVIDIA: 신제품(Hopper → Blackwell → Rubin) 연간 사이클로 마진을 보전하는 구조상, 구세대 칩의 중고/임대 가격 인하에 대한 인센티브는 약하다. 다만 구세대 칩의 소프트웨어 효율 개선에는 강한 인센티브를 가지며(CUDA 생태계 강화 → 락인 → 차세대 판매 보전), 실제로 TensorRT·cuDNN·FlashAttention 등을 통해 지속적 효율 향상을 제공한다. 2026년 현재 ASIC 위협이 본격화되면서 구세대 임대료를 방어적으로 인상하는 역설적 행태도 관찰된다.
클라우드 사업자: 시간당 과금 구조상, 고객 측 GPU 활용률 저하는 단기 매출 증가로 직접 환원된다. 따라서 클라우드 사업자가 고객의 운영 비효율을 능동적으로 해소할 직접 인센티브는 약하다. 이것은 제3자 최적화 시장의 존재 자체로 입증된다. 다만 이 인센티브 비대칭은 절대적인 것은 아니다. 클라우드 사업자는 (i) 하이퍼스케일러 간 가격 경쟁, (ii) 자체 ASIC(Trainium·TPU·Maia)을 통한 단가 인하, (iii) 엔터프라이즈 약정 계약의 볼륨 디스카운트, (iv) Jevons 역설에 따른 수요 확장 효과를 통해 효율 개선의 간접 인센티브를 동시에 갖는다. 결과적으로 순효과는 "비효율 조장"이 아니라 "비효율 묵인"에 가깝다고 판단된다.
테이세이라의 디커플링(Decoupling) 프레임워크에서 기존 사업자는 고객 가치 사슬(Customer Value Chain, CVC)을 구성하는 가치 창출(Value Creating), 가치 수확(Value Charging), 가치 마찰(Value Eroding)을 묶어서 제공한다. 그리고 신규 진입자는 묶음 중 하나를 더 잘하거나 싸게 제공해 기존 사업자를 잠식한다.
AI 인프라에 적용하면 하이퍼스케일러 역시 이 모든 활동을 묶어서 제공중이다:
가치 창출: 컴퓨팅 자원 제공, 하드웨어 갱신 사이클, 데이터센터 운영
가치 수확: 시간당 과금, 약정 디스카운트
가치 마찰: 자원 사이즈 조정, 비용 최적화, 모델 배포와 운영의 복잡성
이 묶음 구조의 핵심 비효율은 가치 수확활동(시간당 과금)이 가치창출(컴퓨팅 효익)과 분리되지 않는다는 점이다. 효율을 1.5배 올리면 고객 비용이 1.5배 줄어들어야 하지만, 시간당 단가 구조에서는 효익이 일부만 전달되거나 클라우드 사업자에게 흡수된다. 테이세이라의 디커플링 프레임워크에서 진행 중인 분리를 정리해 보면 다음과 같다.
가치 창출 디커플링 “컴퓨팅 자원 제공을 하이퍼스케일러 묶음에서 분리”
CoreWeave, Lambda Labs, Crusoe, Applied Digital 등 GPU 전문 제공자들이 등장했다. 하이퍼스케일러의 시간당 단가 대비 30~50% 저렴한 ...