Compute 파워가 전부다 — 앤트로픽 CFO 크리슈나 라오




앤트로픽(Anthropic)의 최고재무책임자 크리슈나 라오(Krishna Rao)가 Invest Like the Best에 출연해, 인류 역사상 가장 흥미로운 시점에 놓인 회사를 안에서 어떻게 운영하는지를 풀어놓는다.
핵심 화두는 단 하나, "컴퓨트(compute)". 그것을 어떻게 사고, 어떻게 배분하고, 어떻게 ROI를 측정하는가. 1년 만에 연간 환산 매출(run rate revenue) 9억 달러에서 30억 달러 이상으로 점프한 회사가, 어떻게 "프론티어 지능(frontier intelligence)의 한계 수익률은 매우 높다"는 단 하나의 명제 위에서 모든 의사결정을 정렬시키는지를 보여준다.
AWS·구글·MS의 3개 클라우드와 트레이니움(Trainium)·TPU·GPU 3개 칩 플랫폼을 동시에 쓰는 유일한 랩으로서의 유연성, 그리고 "지능은 IQ가 아니라 다차원적 능력이다"라는 철학이 관통한다.
크리슈나 라오(Krishna Rao)는 앤트로픽의 CFO로, 2024년 초 합류해 회사가 2억 5천만 달러 → 30억 달러 이상 ARR로 폭발적으로 성장하는 시기를 재무 리더로서 함께 통과했다.
이전 커리어로는 에어비앤비(Airbnb)에서 팬데믹 한복판의 자본 조달을 주도했고, 블랙스톤(Blackstone)의 PE 그룹에서 경력을 쌓았다 — 즉, '전례 없는 상황에서 명료하게 판단하는 훈련'을 받은 사람이다.
합류 이후 약 750억 달러를 조달했고, 최근 아마존·구글과의 딜로 추가 500억 달러가 들어올 예정이다. 단순 자금 조달이 아니라 '컴퓨트 자본 형성'이라는 새 패러다임의 최전선에 있다.
그의 시간 30~40%가 여전히 컴퓨트에 쓰인다. CFO지만 사실상 '컴퓨트 자원 배분의 총괄' 역할을 한다.
그가 특별한 이유: AI 회사의 재무를 'SaaS 마진'이 아닌 '컴퓨트 envelope에 대한 ROI'라는 완전히 새로운 프레임으로 설명하는 사람이다. 지수적(exponential)으로 성장하는 사업을 선형적(linear) 사고를 가진 인간이 어떻게 운영하는가에 대한 살아있는 사례다.
크리슈나: 새로운 모델이 나올 때마다, 다른 종류의 능력 세트가 함께 등장합니다. 사람들은 모델 지능을 IQ처럼 생각하는 경향이 있어요. 우리는 다르게 봅니다. 우리에게 지능은 다차원적(multi-dimensional)입니다. 단일 점수가 아니에요.
이 모델의 실제 세계에서의 능력(real-world capability)이 무엇인가? 각 세대의 모델은 더 많은 일을, 더 잘, 더 효율적으로 할 수 있게 해줍니다. 우리가 프론티어 지능의 한계 수익률(returns to frontier intelligence)이 극단적으로 높다고 믿기 때문이죠. 특히 엔터프라이즈에서 그렇습니다. 그게 우리 사업의 핵심 명제(core thesis)입니다.
패트릭: 크리슈나, 이 대화가 정말 기대됐어요. 인류사에서 가장 흥미로운 사업 중 하나를 안에서 들여다보는 분이고, 그것도 가장 흥미로운 시점에서요 — 적어도 기술자라면, 또는 기술을 신경 쓰는 사람이라면요.
바로 본론으로 들어가서, 우리 둘 다 굉장히 열정적인 주제 하나를 묻고 싶습니다. 당신이 매일같이 다뤄야 하는 컴퓨트(compute) 문제요. 당신 일의 핵심이고, 이 회사들이 하는 일의 핵심이고, 거대한 혁명이 그 위에서 일어나고 있죠. 그게 어떤 일인지 풀어주세요. 한때 매일 컴퓨트를 누구에게 얼마나, 왜 배분할지 회의했다고 들었어요. 그 일상 속으로 우리를 데려가 주세요.
크리슈나: 우리가 조달하는 컴퓨트는 우리 사업의 생명선(lifeblood)입니다. 회사에서 가장 중요한 단 하나의 자원이에요. 다른 모든 것이 그 위에 그려지는 캔버스 같은 존재죠. 그래서 컴퓨트를 얼마나 살 것인가에 대한 결정은 회사 전체에서 가장 파급력 크고, 가장 어려운 결정 중 하나입니다.
이렇게 생각해보세요. 너무 많이 사면 회사가 망합니다. 너무 적게 사면 고객을 서빙하지 못하고, 프론티어에 머무를 수도 없죠. 그것도 같은 결과입니다.
우리는 이걸 '불확실성의 원뿔(cone of uncertainty)'이라고 부릅니다. 1기가와트(GW)의 컴퓨트를 그냥 주문해서 다음 주에 배송받을 수 없잖아요. 정말 멀리 앞을 내다보고 계획해야 합니다. 그래서 매우 규율적인 접근을 합니다.
바텀업으로 봅니다. 수요를 모델링하고, 가끔은 틀리고. 프론티어에 머물기 위해 필요한 컴퓨트를 가늠합니다. 그리고 실제 조달 딜을 할 때, 유연성(flexibility)이 정말 중요해요. 딜 자체에 유연성을 박아 넣고, 컴퓨트를 쓰는 방식에도 유연성을 박아 넣습니다.
오늘의 우리에서 우리가 가고 싶은 곳으로 가는 다리를 놓는 방식 — 사업이 지수적으로 성장하는 와중에 — 그건 결국 컴퓨트를 가능한 한 효율적으로 쓰는 것입니다. 지금도 제 시간의 30~40%를 컴퓨트에 쓴다고 보시면 됩니다.
패트릭: "유연성"이 그 맥락에서 정확히 뭘 의미하나요?
크리슈나: 몇 가지 의미가 있어요.
첫째, 우리는 3개의 칩 플랫폼을 씁니다. 아마존의 트레이니움(Trainium), 구글의 TPU, 엔비디아의 GPU — 우리는 이 세 회사 모두의 고객입니다. 그리고 이 칩들을 fungible(상호 대체 가능)하게 사용합니다.
우리가 사들이는 컴퓨트를 보면, 모델 개발에 씁니다. 내부적으로 자체 제품과 모델 개발 속도를 높이는 데 씁니다. 그리고 당연히 고객을 서빙하는 데도 씁니다. 이 세 칩 플랫폼에 걸쳐, 이 모든 내부·외부 용도에 컴퓨트를 사용합니다.
이 유연성은 사실 오래 걸렸어요.
우리가 모든 프론티어 랩 중 가장 효율적으로 컴퓨트를 쓰는 회사가 되기까지 여러 해를 투자했습니다. TPU를 처음 쓰기 시작했을 때, 아마 3세대 TPU였을 거예요. 그때 사람들이 "미쳤어? 다들 GPU 쓰는데 왜 안 써?"라고 했죠. 우리는 그 유연성에 정말 큰 투자를 했고, 각 칩 세대를 내부 워크로드에 가장 잘 맞는 방식으로 매칭시킵니다.
그래서 우리는 모든 종류의 컴퓨트를 유연하게 쓸 수 있게 해주는 오케스트레이션 레이어(orchestration layer)를 직접 구축했어요. 그렇게 함으로써 컴퓨트에서 최대의 가치를 뽑아냅니다.
패트릭: 제가 이걸 제대로 이해하는 건가요? 엔비디아의 CUDA 같은 게 오랫동안 엔비디아 스토리의 일부였잖아요? 하드웨어에 가까이 다가가 많은 것을 할 수 있게 해주는. 가능한 한 베어 메탈(bare metal)에 가깝게 파고들어 통제할 수 있는 변수를 최대한 늘리는 것, 그게 이 유연성의 일부고, 당신이 걸어온 길인가요?
크리슈나: 그 일부 맞습니다. 그런데 동시에 굉장히 협력적이기도 합니다. 우리는 아마존의 안나푸르나 랩스(Annapurna Labs) 팀과 정말 긴밀하게 일하면서 이 칩들의 로드맵에 영향을 미치고 있어요. 우리가 하는 일이 이 칩들의 한계를 정말 짜내고 있다고 믿거든요.
그래서 우리 조직 내부에서는 1달러의 컴퓨트가 다른 어디에서보다 더 멀리 갑니다. 중요한 건, 우리가 회사 내에서 각 칩을 최선의 용도에 맞춰 쓰고 싶다는 거예요. 그래서 자체 컴파일러도 만들고, 칩 레벨부터 위로 쌓아 올리고 있습니다. 그 커스터마이징과 유연성이 가장 큰 ROI를 만들어내는 길이라고 보거든요.
패트릭: 불확실성의 원뿔(cone of uncertainty) 개념을 설명해주세요. 각 구성 요소도 묻고 싶지만, 그게 컴퓨트 조달과 사용 전체를 사고하는 출발점이자 프레임 같아요.
크리슈나: 사업을 지수적(exponential)으로 키우고 있을 때, 월간이나 주간 성장률의 정말 작은 움직임이 복리로 굴러가면 완전히 다른 결과가 나옵니다. 앞을 내다볼 때, 우리 매출 성장조차 예측하기 정말 어렵습니다.
제가 회사에 합류한 지 2년이 됐는데, 인간은 대체로 선형적(linear)으로 생각하잖아요. 점진적으로요. 그게 제가 스스로 깨야 했던 패러다임입니다. 선형적으로 생각하는 걸 멈추고, 이 지수곡선 위에서 생각하는 것.
지수 곡선 위에서는 결과의 범위가 정말 넓어집니다. 우리는 다양한 시나리오를 봅니다. 1~2년의 기간에 걸쳐 이 불확실성의 원뿔의 여러 지점을 보고, 거기서부터 거꾸로 작업합니다.
우리가 원하는 건 일단 프론티어에 머무는 것입니다. 그게 가장 중요해요. 그리고 고객을 서빙할 수 있어야 하고, 직원들의 일을 가속할 수 있을 만큼의 내부 컴퓨트가 있어야 합니다.

흥미로운 게 있어요. 만약 우리가 직원들에게 "더 이상 우리 모델 못 쓴다"고 말한다면, 그 컴퓨트로 수십억 달러의 매출을 더 서빙할 수 있을 거예요. 하지만 우리는 장기적 관점을 취하고, 원뿔의 위쪽 결과를 향해 베팅합니다. 그러려면 미리 계획해야 하죠. 그게 우리가 규율적으로 컴퓨트를 사는 방식입니다.
가장 중요한 건, 만약 당신이 원뿔의 한 지점에 있는데, 다른 지점을 위해 컴퓨트를 사놓았다면 어떻게 할 것인가? 거기서 컴퓨트 효율성이 정말 우리를 구해줬습니다.
패트릭: 세 가지 버킷 "훈련/연구, 내부 사용, 고객 수요 서빙" 사이의 트레이드오프 대화로 데려가 주세요. 순진하게는 1/3, 1/3, 1/3쯤 될 거라고 생각할 수도 있는데, 얼마나 흔들리나요? 트레이드오프는 어떤가요?
크리슈나: 컴퓨트 조달 회의 외에 컴퓨트 배분(compute allocation) 회의도 자주 합니다. 중요한 건, 이 대화가 우리의 굉장히 협력적인 문화 위에서 일어난다는 점입니다. fiefdom(영지)도 없고, 제로섬(zero-sum)이 아니라 협력적으로 진행됩니다.
하지만 모델 개발에 할당되는 컴퓨트에는 절대 내려가지 않는 하한선(floor)이 있습니다. 고객을 서빙하기 더 어려워지더라도, 좀 부자연스러운 일을 해야 하더라도, 최고의 모델을 개발하는 장기 투자만큼은 멈추지 않습니다. 프론티어 지능의 한계 수익률이 매우 높고, 특히 엔터프라이즈에서 그렇기 때문이에요.
그게 모델 개발 컴퓨트의 바닥(floor)을 만들어줍니다. 그리고 내부 컴퓨트 사용은 모델 개발 속도를 높이고, 컴퓨트 효율 배수(compute efficiency multipliers)를 찾는 데 도움을 줍니다. 각 달러의 컴퓨트에서 더 많은 것을 얻게 해주는 그 배수들요.
이런 대화에서 각 팀이 그 컴퓨트로 뭘 할지 자기 입장을 대변합니다. 그리고 우리는 ROI에 대해 정말 솔직하고 열린 토론을 합니다. 컴퓨트를 매우 동적으로 배분할 수 있어서, 상대적으로 짧은 시간 안에 조정이 가능해요.
패트릭: 효율성이 정말 흥미로워요. 1년 전 당신들의 내부 벤치마크 대비 얼마나 더 효율적인지 감이 있나요? 또 다른 랩들 대비요? 효율성을 어떻게 측정하나요?
크리슈나: 몇 가지 방식으로 생각할 수 있어요. 모델 관점에서 사람들이 갖는 비유는 새 모델이 나올 때마다 자동차처럼 본다는 거예요. 전에 세단이 있었고, 이제 그 세단의 상위 버전이 있고, 점점 위로 올라가는 거죠. 모델 지능 관점에서는 그 비유가 맞습니다.
그 비유가 깨지는 지점은, 사람들이 "세단에서 스포츠카로 가면 연비는 훨씬 나빠지겠지"라고 생각한다는 거예요. 스포츠카는 연비 보고 사는 게 아니잖아요.
그런데 우리 경우엔 능력의 거대한 향상과 모델 효율성의 향상이 동시에 일어납니다.
Opus 4 → 4.5 → 4.6 → 4.7로 가는 각 도약을 보세요. 같지 않은 도약들이지만, 각 도약마다 토큰 처리 효율성에 배수(multiplier)가 붙어요. 그게 고객만 도와주는 게 아닙니다. 내부적으로도 도움이 돼요.

생각해보면, 모델로 강화학습(reinforcement learning)을 할 때, 그건 본질적으로 샌드박스 안의 추론 + 리워드 함수잖아요. 모델이 더 효율적인 추론을 한다면 RL도 더 효율적이 됩니다.
그래서 우리는 윈윈을 합니다. 고객은 새 모델이 나올 때마다 더 많은 능력을 얻고, 우리는 그 모델을 종종 이전 세대보다 몇 배 더 효율적으로 서빙할 수 있게 되죠. 그리고 세대와 세대 사이에는, 큰 모델 변화 같은 계단함수(step function) 사이사이에서, 효율성 개선을 동적으로 배포합니다. 시간이 가면서 항상 더 효율적이 됩니다.
그 연료가 되는 게 연구팀이에요. 모델 능력 R&D, 컴퓨트 효율 R&D, 고객 서빙, 내부 워크로드, 모두가 연결되어 있어요. 때로는 아직 출시되지 않은 모델을 내부에서 써서 워크로드를 가속하기도 합니다.
패트릭: "프론티어에 머무는 것의 수익률이 정말 높다" — 아까 정말 중요한 얘길 했어요. 가능한 한 자세히 설명해주세요. 말로는 당연해 보이지만, "6개월 된 모델 쓰면 비용도 일부니까 따라잡으면서 쓰면 돼"라고 하는 진영도 있잖아요. 그런데 그게 안 통했어요.
저도 소비자로서, Opus 4.7이 나오면 바로 스위치를 켜요. GPT 5.5가 나오면 또 그쪽으로 가고. 최고를 원하니까요.
크리슈나: 몇 가지 이유가 있습니다. 새 모델이 나올 때마다 다른 능력 세트가 나와요. 사람들은 모델 지능을 IQ처럼, 하나의 숫자로 봅니다. "이 모델은 110이었는데 125가 됐어." 우리는 다르게 봐요. 지능은 다차원이고, 단일 점수가 아닙니다.
다들 모델 벤치마크 카드를 발표하지만, 그 벤치마크들 중 상당수는 이미 포화(saturated)됐어요. 우리도 발표는 합니다만. 우리가 진짜로 측정하는 건 고객들이 우리에게 하는 말 "이 모델의 실제 세계 능력이 어느 정도인가?"입니다.
더 나은 모델을 출시할수록, 단순한 raw IQ만이 아니라 장기 호라이즌 태스크(long horizon tasks)를 수행하는 능력, 도구 사용·컴퓨터 사용(tool use, computer use) 능력, 에이전트 태스크(agentic tasks)를 더 빨리 수행하는 능력이 같이 올라가는 걸 봅니다.
직원 두 명이 똑같이 유능한데 한 명은 일주일 걸려서 과제를 끝내고, 다른 한 명은 하루 만에 끝낸다고 해봐요. 후자가 계속 그 페이스를 유지하면, 그 사람은 7배 더 나은 사람이 되는 거예요. 같은 능력이지만 시간이 다른 거죠. 이 모든 게 고객 경험에 녹아듭니다.

새 모델을 출시할 때마다 TAM(전체 시장 규모)이 새롭게 열립니다. 더 많은 TAM이 열리고, 더 많은 유스케이스가 가능해집니다. 좋은 예가 우리가 지난 4개월간 회사에서 본 것이에요.
우리는 올해를 약 90억 달러(annual run rate revenue)로 시작해서, 분기를 30억 달러 이상(quarterly run rate) 넘게 마쳤습니다. 그런 변화는 모델 지능의 도약, 그리고 그 위에서 만든 제품들이 가능하게 만든 거예요. 그게 "프론티어 지능의 수익률이 정말 높다"는 말의 의미입니다.
이건 엔터프라이즈에서 특히 그래요. 소비자 쪽에서는 그렇게 쉽게 보이지 않아요. 소비자가 모델 한계를 그렇게까지 밀어붙이지는 않거든요. 엔터프라이즈에서는, 처음엔 코딩에서 시작했지만 이제 그 너머로 굉장히 의미 있게 확장됐어요. 각 모델 세대가 더 많은 일을, 더 잘, 더 효율적으로 할 기회를 주고, 고객은 그걸 봅니다. 그러고는 새 모델에 더 많은 토큰을 투자합니다. 이 사이클이 계속 반복돼요.
패트릭: 프론티어를 미는 일은 어렸을 때 읽던 공상과학소설 같아요. 메이저 랩들이 어떤 임계점에 도달한 것 같습니다. 당신 팀의 누군가가 최근에 재귀적 자기개선(recursive self-improvement)이라는 말을 했더라고요 — 모델 자체가 다음 세대 모델을 위한 연구의 상당 부분을 한다고요.
당신이 미는 프론티어, OpenAI가 미는 프론티어를 오픈소스 모델들과 비교하면, 당신들이 거기 먼저 도착함으로써 격차가 더 벌어질 수도 있겠다는 생각이 듭니다. 모델 안의 재귀적 자기개선이라는 개념을 어떻게 봐야 하나요? 거기 먼저 도달하는 게 굉장히 중요해 보이거든요.
크리슈나: 우리는 진보가 가속되고 있다고 봅니다. 다른 회사들에 대해 말할 수는 없지만, 우리한테는 스케일링 법칙(scaling laws)이 살아있고 잘 작동합니다. 최근 출시들 — 예를 들어 Mythos 같은 경우를 봐도요.
지금 회사 내부에서 우리 코드의 90% 이상이 Claude Code로 작성됩니다. Claude Code의 상당수가 Claude Code로 작성되고 있어요.
이게 우리가 왜 내부에 컴퓨트를 할당하는지, 왜 매출을 일부 포기하는지를 보여줍니다 — 모델 자체가 다음 세대 모델을 만드는 걸 돕고 있거든요.
스케일링 법칙에서 오는 능력 도약 외에도, 인재(talent)가 정말 중요합니다. 그 인재가 최고의 모델과 결합되면 능력 개발을 정말로 가속할 수 있어요. 우리가 그걸 실제로 보고 있습니다.
우리는 모델을 close...

와~ 엄청난 스압이지만 개인적으로 매우 흥미롭게 읽었습니다. CFO임에도 사업에 대한 이해도와 확신이 엄청나네요. 감사히 잘 읽었습니다ㅎㅎ

감사합니다! 저도 영어가 약하다 보니 ㅎㅎ 팟캐스트 전문을 AI로 옮겨서 보는거라 스압으 압박이 ㅎㅎ CFO인데도 CEO 등등 공동 창업자간에 얼라인이 잘된 채로 움직이고 있는 것 같습니다



