하이퍼스케일러는 CAPEX 투자를 멈출 수 있을까? [2]




이전 글에서 내용이 이어집니다
하이퍼스케일러는 CAPEX 투자를 멈출 수 있을까? [1]
지난 글에서 아래와 같이 결론을 내렸습니다
AI 수요는 불안과 공포를 기반으로 한다는 특징이 있다.
AI에 대한 수요는 AI 그 자체에서 나온다. 모델이 강력해질수록 더 강한 수요를 창출한다.
AGI는 시장경제 관점에서 승자독식이 가능한 모델이라 정의할 수 있다.
승자독식 AGI의 출현을 두려워하는 플레이어들이 게임을 하는 상황이다.
하지만 모두가 같은 전술(Scaling Law)을 사용한다.
그리고 승자독식 모델의 의미하는 AGI가 현실에서 출현 가능한 지에 따라 두 가지 시나리오로 나뉘어지죠
AGI가 달성 가능한 목표일 경우
AGI가 달성 불가능한 목표일 경우
이어지는 내용에서 두 가지 시나리오에 따라 CAPEX 투자의 방향성을 예상해보겠습니다.
1-1. 훈련(Training)과 추론(Inference)의 차이
AI 모델의 성능을 이야기 할 때 훈련(Training)과 추론(Inference)를 구분해서 이야기 해야 합니다. 간단히 말하자면, 훈련은 AI 모델 그 자체를 똑똑하게 만드는 과정입니다. 추론은 훈련된 AI 모델에게 질문을 했을 때 답을 도출하는 과정이죠. AI 모델에서 중요도가 훈련에서 추론으로 넘어온 배경을 이해하려면 모델 개발의 역사를 훑어봐야 합니다.
17년도에 트랜스포머 아키텍쳐가 처음 제시된 이후 이 아키텍쳐는 자연어 처리(NLP) 분야에서 빠르게 확산되기 시작합니다. 20년도 Scaling Law가 발표된 이후에는 연구의 방향은 "모델을 어떻게 키울 수 있을까?"로 바뀌게 됩니다. 그 동안 LLM은 크기가 계속 커졌고 22년도에 ChatGPT가 출시된 이후에는 비로소 LLM은 더 이상 연구실의 것이 아닌, 대중과 산업의 영역으로 확장이 됩니다.
GPT 출시 이전에는 LLM은 아직 연구의 대상일 뿐이었습니다. 22년 11월 이후에서야 AI 모델이 서비스의 대상, 상품이 된 것이죠. 그 전까지 추론은 그다지 중요하지 않았습니다. LLM 모델의 성능은 벤치마크 점수로 표현되는데 이 점수를 얻기 위해 훈련된 모델에 질문지를 넣으면 답을 내놓는 과정이 추론이었고 단순히 결과를 내는 과정이라 생각했습니다.
하지만 추론은 두 가지 요인으로 인해 그 중요성이 커지게 되었습니다.
하나는 비용입니다. 논문의 결과를 쓰기 위해서 추론이 필요했던 과거와 달리 챗봇으로 서비스를 하기 위해선 사용자가 질문을 한 번 할 때마다 추론을 해야 합니다. 그리고 이 과정은 엄청난 전력 소모를 일으키죠. GPT가 처음 출시되었을 때 질문 한 번에 약 100원의 비용이 발생한다는 이야기를 들은 기억이 납니다. 이 비용은 서비스가 확장될수록 기하급수적으로 늘어나는 구조였습니다.
둘째는, AI 모델 성능의 향상입니다. 모델 자체의 사이즈를 늘리는 Model Scaling은 어느 순간 한계에 부딪히게 됩니다. 처음부터 다시 학습을 시키는 데에 시간도 오래 걸리고 데이터를 추가로 확보하는 것에도 어려움이 있기 때문이죠. 게다가 유저들은 더 많은 입력을 넣고 싶어하고, 사고력, 논리력을 요구하는 어려운 질문들을 던지고 있었습니다. 단순히 모델을 키우는 것만으로는 이 요구들을 해결할 수 없었습니다. 그런 맥락에서 나온 것이 Reasoning 입니다. Reasoning과 Inference는 모두 추론으로 번역되지만 그 의미는 다릅니다. Inference는 결과값을 도출하는 한 과정을 의미하고 Reasoning은 복잡한 문제를 풀기 위해 곰곰히 생각하는 과정을 의미합니다. 이 Reasoning을 잘하기 위해 고안한 방식이 Inference를 여러 번 돌리는 것입니다. 즉, Inference-time compute 를 늘려 한 번에 결과를 내지 않고 내부적으로 더 많은 계산을 거쳐 답을 내는 것입니다. 이 방법을 통해 LLM은 Reasoning 능력을 얻게 되었고 Model Scaling으로 극복하지 못한 한계를 넘어섰습니다.
요약을 하고 넘어가겠습니다.
훈련(Training)과 추론(Inference) 은 다르다
훈련은 모델 그 자체를 똑똑하게 만드는 과정이고, 추론은 결과값을 얻는 과정이다.
Model Scaling을 통해 훈련(Training)을 잘 시켜 성능을 향상시켰지만 어느 순간 한계에 부딪혔다.
Inference Scaling을 통해 Reasoning 능력을 얻게 되었다.
Inference는 LLM이 서비스화됨에 따라 비용, 성능 향상 측면에서 중요성을 가지게 되었다
1-2. 다시 보는 Scaling Law
훈련과 추론의 차이를 정의했으니 우리는 Scaling Law를 두 가지 요소로 나눠서 생각할 수 있습니다.
현재 AI 개발 방향은 두 방향 모두로 이루어지고 있습니다. 한동안은 Inference 영역에만 관심을 주는 흐름이었습니다. 한편, 4월말에 공개된 GPT-5.5 아래 벤치마크 점수에서 항상 비교 당하던 Claude의 최신 모델을 뛰어넘는 성능을 보여주었습니다. GPT-5.5는 2년만에 Training을 처음부터 다시 한 모델로, 여전히 모델 스케일링이 유효함을 확인시켜줬습니다. 카더라이지만 Mythos는 10T의 ...

꼼꼼한 분석글 감사합니다!