Dwarkesh Podcast) 젠슨 황 – TPU 경쟁, 왜 우리가 중국에 칩을 판매해야 하는지, 그리고 엔비디아의 공급망 해자
원문)
Jensen Huang – TPU competition, why we should sell chips to China, & Nvidia’s supply chain moat
(Dwarkesh Patel Podcast)
요약)
Nvidia의 해자에 대해
Nvidia는 전자(Electron) → 토큰 변환을 위한 전체 시스템을 조율하는 기업
경쟁우위는 상류 공급망, 하류 수요, SW, 도구, 개발자를 연결한 거대 생태계에서 얻어짐
TSMC 등의 공급망 선점은 확실한 수요를 보장하는 능력이 있어서 가능함
병목 문제는 칩보다 전력, 에너지 인프라, 배관공 같은 물리적 인프라가 더 큰 제약임
TPU가 지배력을 위협할 것인지에 대해
TPU를 구조적 위협으로 보고 있지는 않음
Nvidia는 AI 전용 칩이 아니라 다양한 가속 컴퓨팅을 처리할 수 있는 플랫폼임
단순히 행렬곱에 최적화된 것보다 새 아키텍처, 알고리즘을 만들 수 있는 범용 프로그래머빌리티가 중요
CUDA는 검증된 호환성을 가지고 있어 범용적으로 쓸 수 있음
Nvidia는 와트당 성능, 달러당 선능에서 최고임, 다른 칩이 경제성을 쉽게 앞서기 어려움
왜 Nvidia는 하이퍼스케일러가 되지 않는가
회사 철학은 필요한 만큼만 하고, 가능한 적게 하는 것
Nvidia가 하지 않으면 남들이 안 할 일만 함
고객에게 GPU를 배분하는 원칙은 구매주문을 누가 먼저 했느냐에 따름, 최고가 입찰 같은 건 하지 않음
중국에 칩을 파는 것에 대해
칩 수출을 차단해도 AI 개발을 근본적으로 막을 수는 없음
중국은 칩 부족을 에너지로 커버할 수 있음, 병렬 연결해서 에너지 많이 쓰면 됨
성능 향상의 핵심은 칩이 좋아지는 것이 아님, 알고리즘, 아키텍처의 개선이 훨씬 중요
중국 시장을 포기하면 그들은 중국 기술 스택 기반으로 발전할 것이고, 이것은 미국에 더 큰 손실이 될 것
AI가 사이버 공격 등의 도구로 사용될 수 있다는 점은 인정하지만, 수출을 극단적으로 막는 것은 과도하며, 국제적 대화와 생태계 구축이 더 적절할 것이라고 봄
미국이 항상 앞선 기술과 더 많은 컴퓨팅 자원을 보유해야 하지만, 세계 2위 시장을 스스로 포기해서는 안 됨
왜 다른 칩 아키텍처를 다양하게 만들지 않는지
칩 세대가 바귈 때 아키텍처, 패키징 등 시스템 전체가 바뀌므로 구형 공정을 개선하는 것은 부담이 너무 큼
여러 칩 아키텍처를 동시에 추진하는 것은 현재보다 더 낫지 않음
시장 수요가 달라진다면 다른 가속기를 추가할 수 있음
AI가 없었어도 Nvidia는 가속 컴퓨팅 회사였을 것. CPU가 효율적으로 처리하지 못하는 과학, 공학, 물리, 그래픽 등의 문제가 많음
00:00:00 엔비디아의 가장 큰 해자는 희소한 공급망을 장악하고 있다는 점인가?
드와르케시 파텔
사람들이 AI가 소프트웨어를 범용화·상품화할 것이라고 예상하면서, 여러 소프트웨어 기업의 밸류에이션이 무너지는 모습을 우리는 봐 왔습니다. 여기에는 어쩌면 순진한 사고방식이 하나 있을 수 있습니다. 이를테면 이런 식입니다. 엔비디아는 GDS2 파일을 TSMC에 보냅니다. 그러면 TSMC가 로직 다이를 만들고, 스위치를 만들고, 그다음 SK하이닉스·마이크론·삼성이 만드는 HBM과 함께 패키징합니다. 이후 그것은 대만의 ODM으로 보내져 랙 조립이 이뤄집니다. 결국 엔비디아는 다른 사람들이 제조하는 무언가에 대해 소프트웨어를 만드는 회사인 셈인데, 만약 소프트웨어가 범용화된다면 엔비디아도 범용화되는 것 아닌가요?
젠슨 황
결국에는 전자를 토큰으로 바꾸는 무언가가 필요합니다. 전자를 토큰으로 바꾸고, 시간이 지날수록 그 토큰의 가치를 더 높게 만드는 일은 완전히 범용화하기가 어렵습니다. 전자에서 토큰으로의 변환은 실로 놀라운 여정입니다. 어떤 토큰을 만든다는 것은 어떤 분자를 다른 분자보다 더 가치 있게 만드는 것과 비슷합니다. 어떤 토큰을 다른 토큰보다 더 가치 있게 만드는 데는 엄청난 예술성, 엔지니어링, 과학, 발명이 들어갑니다. 우리는 그것이 실시간으로 벌어지는 걸 보고 있죠. 그 변환 과정, 제조 과정, 거기에 들어가는 모든 과학은 아직 깊이 이해되지 않았고, 그 여정도 끝나려면 멀었습니다. 그래서 저는 그것이 그렇게 쉽게 범용화되리라고 보지 않습니다.
물론 우리는 그것을 더 효율적으로 만들 것입니다. 당신이 방금 던진 질문은 사실 우리 회사에 대한 제 정신 모델과도 같습니다. 입력은 전자이고, 출력은 토큰이며, 그 중간에 엔비디아가 있습니다. 우리의 일은 그 변환이 엄청난 성능으로 이뤄지도록 하기 위해 필요한 것은 최대한 하고, 필요하지 않은 것은 최대한 하지 않는 것입니다. 제가 “가능한 한 적게 한다”고 말할 때의 뜻은, 내가 굳이 직접 할 필요가 없는 것은 파트너와 협력해서 내 생태계의 일부로 만든다는 뜻입니다.
오늘날의 엔비디아를 보면, 공급망의 상류와 하류, 컴퓨터 회사들, 애플리케이션 개발자들, 모델 제작자들까지 포함해서 아마 가장 큰 파트너 생태계를 가진 회사일 겁니다. AI는 일종의 5단 케이크와도 같습니다. 우리는 그 다섯 층 전부에 걸쳐 생태계를 갖고 있습니다. 우리는 최대한 적게 하려고 하지만, 우리가 반드시 해야 하는 그 부분은 알고 보면 엄청나게 어렵습니다. 저는 그것이 범용화된다고 보지 않습니다.
사실 저는 엔터프라이즈 소프트웨어 회사들, 즉 툴을 만드는 회사들 역시 범용화될 것이라고 보지 않습니다. 오늘날 대부분의 소프트웨어 회사는 툴 메이커입니다. 물론 아닌 곳도 있습니다. 일부는 워크플로를 코드화하는 시스템이죠. 하지만 많은 회사들은 툴 메이커입니다. 예를 들어 엑셀은 툴이고, 파워포인트는 툴이며, 케이던스도 툴을 만들고, 시놉시스도 툴을 만듭니다. 저는 오히려 사람들이 보는 것과 반대 방향을 봅니다. 에이전트 수는 기하급수적으로 늘어날 것이고, 툴 사용자 수도 기하급수적으로 늘어날 겁니다. 이 모든 툴의 인스턴스 수가 폭증할 가능성이 매우 높습니다.
시놉시스 디자인 컴파일러의 인스턴스 수가 폭증할 가능성도 매우 높습니다. 플로어플래너, 우리의 레이아웃 툴, 디자인 룰 체커를 사용하는 에이전트 수도 함께 증가할 것입니다. 지금은 엔지니어 수가 병목입니다. 내일은 그 엔지니어들이 수많은 에이전트의 지원을 받을 것입니다. 우리는 전에 없던 방식으로 설계 공간을 탐색하게 될 것이고, 오늘 쓰는 바로 그 툴들을 계속 쓰게 될 겁니다.
저는 툴 사용의 확산이 오히려 소프트웨어 회사들을 급성장시킬 것이라고 봅니다. 아직 그 일이 일어나지 않은 이유는 에이전트들이 아직 툴을 충분히 잘 다루지 못하기 때문입니다. 이 회사들이 스스로 에이전트를 만들게 되든, 아니면 에이전트가 충분히 발달해서 툴을 능숙하게 다루게 되든, 결국 둘 다 어느 정도는 일어날 것이라고 봅니다.
드와르케시 파텔
최근 공시를 보면 파운드리, 메모리, 패키징과 관련한 구매 약정이 거의 1,000억 달러에 달했던 것 같습니다. SemiAnalysis는 이와 같은 종류의 구매 약정이 2,500억 달러에 이를 것이라고 보도했죠. 한 가지 해석은, 엔비디아의 해자가 사실상 이런 희소 부품들을 여러 해 동안 선점해 둔 데 있다는 것입니다. 다른 누군가가 가속기를 만들 수는 있겠지만, 실제로 그것을 만들 메모리를 확보할 수 있느냐, 로직을 확보할 수 있느냐가 문제라는 것이죠. 앞으로 몇 년간 엔비디아의 가장 큰 해자는 정말 이것인가요?
젠슨 황
그건 분명 우리가 할 수 있는 일 가운데 다른 누군가가 따라 하기 어려운 것 중 하나입니다. 우리는 상류 공급망에 엄청난 약속을 해 왔습니다. 어떤 것은 당신이 언급한 것처럼 명시적인 약정이고, 어떤 것은 암묵적입니다. 예를 들어 상류에 이뤄지는 많은 투자는 공급망 자체가 하는데, 그 이유는 제가 CEO들에게 “이 산업이 얼마나 커질지 말씀드리겠습니다. 왜 그런지 설명하겠습니다. 제가 어떻게 추론하는지 보여드리겠습니다. 제가 무엇을 보고 있는지 보여드리겠습니다”라고 말했기 때문입니다.
이렇게 정보를 제공하고, 영감을 주고, 상류 산업의 다양한 CEO들과 정렬시키는 과정을 거친 결과, 그들은 투자를 하려는 의지를 갖게 됩니다. 왜 그들은 다른 사람이 아니라 나를 위해 투자하려 하느냐? 그 이유는 내가 그들의 공급을 실제로 사서 하류로 흘려보낼 수 있는 역량이 있다는 것을 알기 때문입니다. 사실 엔비디아는 하류 공급망도 크고 하류 수요도 매우 크기 때문에, 그들은 상류에서 투자할 의지가 생깁니다.
GTC를 보면 사람들은 그 규모와 참석자들에 놀랍니다. 그것은 360도 전 방향으로 AI의 전체 우주가 한곳에 모이는 자리입니다. 그들이 모두 한곳에 모이는 이유는 서로를 봐야 하기 때문입니다. 저는 그들을 한곳에 모아서 하류가 상류를 보고, 상류가 하류를 보고, 모두가 AI의 진보를 보게 만듭니다. 아주 중요하게는, 그들은 AI 네이티브 기업들, 지금 막 만들어지고 있는 AI 스타트업들, 벌어지고 있는 놀라운 일들을 직접 만나서 제가 말하는 것들을 눈으로 확인할 수 있습니다. 저는 제 시간의 상당 부분을 공급망, 파트너, 생태계에 앞으로의 기회를 직간접적으로 알리는 데 씁니다.
사람들은 종종 “젠슨, 당신의 키노트는 거의 발표의 연속이다”라고 말합니다. 그런데 우리의 키노트에는 약간 고통스러울 정도로 교육처럼 느껴지는 부분이 항상 있습니다. 사실 제 머릿속에는 정확히 그것이 있습니다. 저는 공급망 전체, 즉 상류와 하류, 그리고 생태계가 무엇이 다가오고 있는지, 왜 다가오는지, 언제 오는지, 얼마나 커질지, 그리고 그것을 제가 추론하듯 체계적으로 이해할 수 있게 해야 합니다.
당신이 말한 의미에서의 해자와 관련해 말하자면, 우리는 미래를 위해 짓고 있습니다. 향후 몇 년이 1조 달러 규모가 된다 해도, 우리는 그것을 감당할 공급망을 갖고 있습니다. 우리의 도달 범위와 비즈니스 속도 없이는 불가능합니다. 현금흐름이 있듯 공급망 흐름도 있고, 회전율도 있습니다. 비즈니스 회전이 낮은 아키텍처를 위해 공급망을 새로 짓는 사람은 없습니다. 우리가 이런 규모를 지속할 수 있는 건 오직 하류 수요가 엄청나게 크기 때문입니다. 그들은 그것을 보고, 듣고, 앞으로 오는 것을 봅니다. 그래서 우리가 하는 일들을 우리가 하는 규모로 할 수 있는 겁니다.
드와르케시 파텔
그렇다면 좀 더 구체적으로 상류가 그 속도를 따라갈 수 있는지 이해하고 싶습니다. 수년 동안 엔비디아의 매출은 해마다 두 배씩 늘었고, 세상에 공급하는 FLOPs도 해마다 세 배 이상 늘고 있었습니다.
젠슨 황
그리고 이제 이 정도 규모에서 두 배 성장은 정말 놀라운 일이죠.
드와르케시 파텔
맞습니다. 그런데 로직 쪽을 보면, 엔비디아는 TSMC의 3나노 공정 최대 고객이고 2나노에서도 가장 큰 고객 중 하나입니다. SemiAnalysis에 따르면 AI 전체가 올해는 3나노의 60%, 내년에는 86%를 차지하게 됩니다. 이렇게 과반을 차지하면서 어떻게 다시 두 배 성장합니까? 그리고 그걸 해마다 반복하려면 어떻게 해야 합니까? 이제는 상류 때문에 AI 컴퓨트의 성장률이 둔화될 수밖에 없는 국면인가요? 그걸 우회할 방법이 보입니까? 궁극적으로 어떻게 매년 팹을 두 배 더 지을 수 있습니까?
젠슨 황
어떤 수준에서는 순간순간의 수요가 전 세계 상류와 하류의 공급보다 큽니다. 어떤 순간에는 배관공 수가 병목이 되기도 합니다. 실제로 그렇습니다.
드와르케시 파텔
그 배관공들도 내년 GTC에 초대해야겠네요.
젠슨 황
좋은 생각입니다. 하지만 그건 좋은 상태입니다. 순간 수요가 산업 전체 공급보다 큰 산업을 원해야 합니다. 그 반대는 당연히 덜 좋죠. 만약 특정 부품 하나가 너무 뒤처지면, 업계 전체가 그 병목으로 몰려듭니다. 예를 들어 이제 사람들은 CoWoS 얘기를 그다지 많이 하지 않죠.
그 이유는 지난 2년 동안 우리가 그 문제를 미친 듯이 밀어붙였기 때문입니다. 두 배, 또 두 배, 또 여러 번 두 배를 만들었습니다. 이제는 꽤 괜찮은 상태라고 생각합니다. TSMC는 이제 CoWoS 공급이 로직 수요와 메모리 수요를 따라가야 한다는 걸 알고 있습니다. 그래서 CoWoS와 미래 패키징 기술의 확장 속도를 로직 확장 속도와 같은 수준으로 끌어올리고 있습니다. 이건 아주 좋은 일입니다. 오랫동안 CoWoS와 HBM 메모리는 특수 분야처럼 취급됐지만 이제는 아닙니다. 이제 사람들은 그것이 주류 컴퓨팅 기술이라는 걸 이해합니다.
물론 지금은 우리가 공급망의 더 넓은 범위에 영향을 미칠 수 있게 되었습니다. AI 혁명이 시작될 때, 제가 지금 하는 말들을 저는 이미 5년 전에도 하고 있었습니다. 몇몇은 그것을 믿고 투자했습니다. 예를 들어 산제이와 마이크론 팀이 그랬죠. 그 회의가 아직도 생생합니다. 무엇이 왜 일어날지, 그리고 오늘의 예측이 무엇인지 저는 아주 분명하게 말했습니다. 그들은 거기에 크게 베팅했습니다. 우리는 LPDDR과 HBM 메모리 전반에 걸쳐 협업했고, 그들은 실제로 투자했습니다. 그것은 회사에 엄청난 성과를 가져왔습니다. 어떤 사람들은 조금 늦게 왔지만, 이제는 모두 여기에 와 있습니다.
이런 병목들 각각은 엄청난 주목을 받습니다. 이제 우리는 몇 년 앞서 병목을 미리 읽어내고 있습니다. 예를 들어 지난 몇 년 동안 Lumentum, Coherent, 그리고 실리콘 포토닉스 생태계와 함께한 투자들은 공급망을 실질적으로 재편했습니다. 우리는 TSMC를 중심으로 완전히 새로운 공급망을 구축했고, COUPE에서 협업했으며, 여러 기술을 발명했고, 특허를 공급망 전체에 라이선스해 개방성을 유지했습니다.
우리는 새로운 기술 발명, 새로운 워크플로, 양면 프로빙 같은 새로운 테스트 장비, 기업 투자, 그리고 생산능력 확장을 돕는 방식으로 공급망을 준비시키고 있습니다. 즉, 공급망이 우리가 원하는 규모를 지원할 수 있도록 생태계 전체를 설계하고 있는 겁니다.
드와르케시 파텔
어떤 병목은 다른 병목보다 해결이 쉬워 보입니다. CoWoS를 늘리는 것과, 예를 들어—
젠슨 황
제가 가장 어려운 것부터 말했습니다.
드와르케시 파텔
그게 뭔가요?
젠슨 황
배관공입니다. 그리고 전기 기사죠. 이것은 제가 “일의 종말”이나 “일자리의 소멸”을 말하는 비관론자들에 대해 우려하는 이유 중 하나입니다. 우리가 사람들에게 소프트웨어 엔지니어가 되지 말라고 하면, 결국 소프트웨어 엔지니어가 부족해집니다. 10년 전에도 같은 예측이 있었습니다. 어떤 비관론자들은 사람들에게 “무슨 일을 하든 방사선과 의사만은 되지 마라”라고 했습니다. 지금도 웹에는 방사선학이 가장 먼저 사라질 직업이고 세상은 더 이상 방사선과 의사를 필요로 하지 않게 될 거라고 말하는 영상이 있을 겁니다. 그런데 지금 무엇이 부족한지 아십니까? 방사선과 의사입니다.
드와르케시 파텔
다시 돌아가면, 어떤 것은 확장 가능하고 어떤 것은 그렇지 않다는 점 말입니다. 로직 생산량을 해마다 두 배로 늘린다는 건 실제로 어떻게 합니까? 결국 메모리와 로직은 EUV에 병목이 걸려 있습니다. EUV 장비를 해마다 두 배 확보하는 건 어떻게 가능한가요?
젠슨 황
그 어느 것도 빠르게 확장 불가능한 것은 아닙니다. 전부 2~3년 안에 늘릴 수 있습니다. 필요한 것은 수요 신호뿐입니다. 하나를 만들 수 있으면 열 개도 만들 수 있고, 열 개를 만들 수 있으면 백만 개도 만들 수 있습니다. 이런 것들은 복제가 어려운 성격의 것이 아닙니다.
드와르케시 파텔
공급망의 어디까지 직접 내려가십니까? 예를 들어 ASML에 가서 “3년 뒤 엔비디아가 연간 2조 달러 매출을 내게 되려면 EUV 장비가 훨씬 더 많이 필요합니다”라고 말하나요?
젠슨 황
어떤 경우에는 제가 직접 해야 하고, 어떤 경우에는 간접적으로 해야 합니다. 어떤 경우에는 TSMC를 설득하면 ASML은 자동으로 설득됩니다. 우리는 핵심 병목 지점을 봐야 합니다. 하지만 TSMC가 납득하면 몇 년 안에 EUV 장비는 충분해질 겁니다.
제 요점은 어떤 병목도 2~3년 이상 지속되지 않는다는 것입니다. 한편 우리는 컴퓨팅 효율을 10배, 20배, 그리고 Hopper에서 Blackwell로는 30배에서 50배까지 개선하고 있습니다. CUDA가 워낙 유연하기 때문에 새로운 알고리즘도 계속 나옵니다. 우리는 용량을 늘리는 동시에 효율을 끌어올릴 수 있는 여러 기법을 개발하고 있습니다. 제게 진짜 걱정인 것은 그런 것이 아닙니다. 진짜 걱정은 우리 아래쪽, 즉 에너지 쪽입니다. 에너지 없이 산업은 만들 수 없습니다. 에너지 없이 새로운 제조업을 만들 수는 없습니다.
우리는 미국을 다시 산업화하고 싶습니다. 반도체 제조, 컴퓨터 제조, 패키징을 미국으로 되돌리고 싶습니다. EV와 로봇 같은 새로운 것들을 만들고 싶고, AI 팩토리도 만들고 싶습니다. 그런데 이 모든 것은 에너지 없이는 불가능하고, 그건 시간이 오래 걸립니다. 칩 생산능력 증설은 2~3년 문제입니다. CoWoS 생산능력 증설도 2~3년 문제입니다.
드와르케시 파텔
흥미롭네요. 어떤 게스트들은 정반대 말을 하곤 했습니다. 그런데 이 문제에서는 제가 기술 지식이 부족해서 누가 맞는지 판별하기 어렵습니다.
젠슨 황
좋은 점은 지금 당신이 전문가와 이야기하고 있다는 겁니다.
00:16:25 – TPU가 AI 컴퓨트에 대한 엔비디아의 지배력을 깨뜨릴까?
드와르케시 파텔
좋습니다. 경쟁사 얘기를 해보고 싶습니다. TPU를 보면, 세계 상위 3개 모델 중 2개라 할 수 있는 Claude와 Gemini가 TPU에서 훈련됐습니다. 이것이 엔비디아의 미래에 의미하는 바는 무엇인가요?
젠슨 황
우리는 전혀 다른 것을 만듭니다. 엔비디아가 만든 것은 TPU가 아니라 가속 컴퓨팅입니다. 가속 컴퓨팅은 분자 동역학, 양자색역학, 데이터 처리, 데이터프레임, 정형 데이터와 비정형 데이터, 유체역학, 입자물리학 등 온갖 곳에 쓰입니다. 그리고 물론 AI에도 쓰입니다.
가속 컴퓨팅의 세계는 훨씬 더 다양합니다. 지금 대화의 중심은 AI이고 분명 매우 중요하고 큰 영향을 미치지만, 컴퓨팅은 그보다 훨씬 넓습니다. 엔비디아는 범용 컴퓨팅에서 가속 컴퓨팅으로 컴퓨팅의 방식을 재발명했습니다. 우리의 시장 도달 범위는 어떤 TPU나 ASIC이 가질 수 있는 범위를 훨씬 넘어섭니다. 우리는 모든 종류의 애플리케이션을 가속하는 유일한 회사입니다. 그리고 우리는 거대한 생태계를 갖고 있습니다. 그래서 온갖 프레임워크와 알고리즘이 엔비디아 위에서 돌아갑니다.
또 우리의 컴퓨터는 다른 사람도 운영할 수 있도록 설계돼 있습니다. 그래서 운영자라면 누구든 우리의 시스템을 살 수 있습니다. 대부분의 자체 제작 시스템은 다른 사람이 운영할 수 있을 만큼 유연하게 설계되지 않았기 때문에, 그 시스템을 쓰려면 사실상 당신이 직접 운영자가 되어야 합니다. 반면 누구나 운영할 수 있는 우리의 시스템은 구글, 아마존, 애저, OCI 등 모든 클라우드에 들어가 있습니다.
임대용으로 운영하려면 여러 산업에 걸친 대규모 고객 생태계가 있어야 합니다. 스스로 쓰기 위해 운영하더라도, 예를 들어 우리가 xAI의 일론에게 했던 것처럼, 우리는 고객이 스스로 운영할 수 있게 도와줄 수 있습니다. 또한 우리가 어떤 회사, 어떤 산업에서도 운영자를 가능하게 하기 때문에, Lilly 같은 회사는 과학 연구와 신약 개발을 위한 슈퍼컴퓨터를 구축할 수 있습니다. 우리는 그들이 직접 운영하도록 도와주고, 우리가 가속하는 생물과학·신약개발 전반에 걸쳐 그 슈퍼컴퓨터를 활용하게 할 수 있습니다.
즉 TPU로는 하기 어려운 수많은 애플리케이션 영역을 우리는 다룰 수 있습니다. 엔비디아는 CUDA를 훌륭한 텐서 처리 시스템으로 만들었지만, 그것은 데이터 처리, 컴퓨팅, AI 등 전체 라이프사이클도 다룹니다. 우리의 시장 기회는 훨씬 크고, 도달 범위도 훨씬 큽니다. 우리는 이제 전 세계의 모든 애플리케이션을 지원하기 때문에, 어디에서든 엔비디아 시스템을 구축하면 고객이 있다는 것을 알 수 있습니다. 완전히 다른 게임입니다.
드와르케시 파텔
질문이 좀 길어질 겁니다. 엔비디아는 대단한 매출을 내고 있지만, 분기당 600억 달러를 제약이나 양자컴퓨팅에서 버는 건 아닙니다. AI라는 전례 없는 기술이 전례 없이 빠르게 성장하고 있기 때문에 그 정도를 버는 것이죠.
그러면 질문은 AI 자체에 가장 적합한 것이 무엇이냐는 겁니다. 저는 디테일의 전문가는 아니지만, AI 연구자 친구들과 얘기해 보면 이렇게 말합니다. “TPU를 쓰면, 행렬곱에 최적화된 거대한 시스톨릭 어레이를 쓰는 셈이지만, GPU는 훨씬 유연하다. 가지치기나 불규칙한 메모리 접근이 많을 때 특히 좋다.”
그런데 AI란 결국 예측 가능한 행렬곱을 계속 반복하는 것 아닌가요? 워프 스케줄러나 스레드 전환, 메모리 뱅크 전환 같은 것들 때문에 다이 면적을 희생할 필요도 없고요. TPU는 지금 막 온라인에 올라오고 있는 매출 성장과 컴퓨트 사용 사례의 대부분을 위해 매우 잘 최적화돼 있습니다. 이에 대해 어떻게 생각하십니까?
젠슨 황
행렬곱은 AI의 중요한 일부이지만 전부는 아닙니다. 새로운 어텐션 메커니즘을 만들고 싶거나, 다른 방식의 디스어그리게이션을 하고 싶거나, 하이브리드 SSM 같은 완전히 새로운 아키텍처를 발명하고 싶다면, 범용적으로 프로그래밍 가능한 아키텍처가 필요합니다. 디퓨전과 오토리그레시브 방식을 결합한 모델을 만들고 싶어도, 역시 일반적으로 프로그래밍 가능한 아키텍처가 필요합니다. 우리는 상상할 수 있는 거의 모든 것을 돌릴 수 있습니다. 그게 장점입니다. 프로그래밍 가능한 시스템이기 때문에 새로운 알고리즘을 훨씬 쉽게 발명할 수 있게 해 줍니다.
새로운 알고리즘을 발명하는 능력 자체가 AI를 그토록 빠르게 전진시키는 핵심입니다. TPU도 다른 모든 것처럼 무어의 법칙 영향을 받습니다. 우리가 알다시피 그것은 연간 약 25% 정도 향상됩니다. 하지만 10배, 100배 같은 도약을 만들려면 결국 알고리즘과 계산 방식을 매년 근본적으로 바꿔야 합니다.
그게 엔비디아의 근본적 강점입니다. 우리가 Blackwell을 Hopper 대비 50배까지 만들 수 있었던 이유도 거기에 있습니다. 제가 처음에 Blackwell이 Hopper보다 에너지 효율이 35배 좋다고 발표했을 때는 아무도 믿지 않았습니다. 그런데 Dylan이 글을 쓰며 제가 너무 보수적으로 말했고 실제로는 50배라고 했죠. 이런 것은 무어의 법칙만으로는 절대 설명할 수 없습니다. 우리는 MoE 같은 새로운 모델을 이용해 문제를 해결합니다. 그것은 병렬화되고, 분리되고, 컴퓨팅 시스템 전체에 분산됩니다. CUDA로 내려가 새 커널을 만들 수 있는 능력이 없다면 그런 일은 매우 어렵습니다.
그리고 이는 우리 아키텍처의 프로그래머블함과 엔비디아가 극단적인 코디자인 회사라는 사실의 결합입니다. 우리는 일부 계산을 NVLink 같은 패브릭으로 오프로드할 수도 있고, Spectrum-X 같은 네트워크로도 오프로드할 수 있습니다. 즉, 프로세서, 시스템, 패브릭, 라이브러리, 알고리즘 전반에 동시에 변화를 줄 수 있습니다. CUDA 없이 그 일을 하라면 저는 어디서부터 시작해야 할지조차 모르겠습니다.
드와르케시 파텔
그 얘기는 엔비디아 고객층에 대한 흥미로운 질문으로 이어집니다. 엔비디아 매출의 60%가 상위 5개 하이퍼스케일러에서 나옵니다. 다른 시대, 다른 고객층이라면—예를 들어 교수들이 실험을 돌리던 시대라면—그들은 CUDA가 필요했습니다. 다른 가속기를 쓸 수 없었죠. 파이토치를 CUDA 위에서 돌리고 모든 최적화가 된 상태가 필요했습니다.
하지만 이 하이퍼스케일러들은 자기 커널을 직접 작성할 자원이 있습니다. 실제로 각자 아키텍처에서 마지막 5% 성능까지 뽑아내려면 그렇게 해야 하죠. Anthropic과 Google은 대부분 자체 가속기나 TPU, Trainium 위에서 돌아갑니다. OpenAI도 GPU를 쓰지만 Triton을 갖고 있습니다. 자체 커널이 필요하기 때문이죠. cuBLAS나 NCCL을 쓰는 대신 CUDA C++까지 내려가서 자기 스택을 갖고 있고, 그 스택은 다른 가속기로도 컴파일됩니다. 그렇다면 고객 대부분이 실제로 CUDA를 대체하는 것을 만들 수 있고 또 만들고 있는 상황에서, 최전선 AI가 엔비디아 위에서 돌아가게 만드는 핵심이 정말 CUDA라고 할 수 있습니까?
젠슨 황
CUDA는 풍부한 생태계입니다. 어떤 컴퓨터 위에서 무언가를 먼저 짓고자 한다면, CUDA 위에서 먼저 짓는 것은 엄청나게 현명한 일입니다. 생태계가 워낙 풍부하기 때문에 우리는 모든 프레임워크를 지원합니다. 사용자 정의 커널을 만들고 싶다면, 예를 들어 우리는 Triton에도 엄청나게 많이 기여합니다. Triton의 백엔드에는 엔비디아 기술이 대량으로 들어가 있습니다.
우리는 모든 프레임워크가 가능한 한 훌륭해지도록 돕는 걸 기쁘게 생각합니다. Triton, vLLM, SGLang 등 수많은 프레임워크가 있습니다. 이제는 verl, NeMo RL 같은 새로운 강화학습 프레임워크도 많이 나오고 있습니다. 포스트트레이닝과 강화학습 영역은 지금 폭발적으로 커지고 있습니다. 따라서 어떤 아키텍처 위에 구축하려면 CUDA가 가장 합리적입니다. 생태계가 훌륭하다는 걸 알기 때문입니다.
문제가 생겼을 때 그것이 자기 코드 때문일 가능성이, 그 밑에 있는 거대한 코드 더미 때문일 가능성보다 높다는 점도 중요합니다. 이런 시스템을 만들 때 다루는 코드 양을 생각해야 합니다. 무언가가 안 돌아가면 문제가 나 때문인지 컴퓨터 때문인지 알아야 합니다. 누구나 항상 “문제는 내 코드 쪽일 것이다”라고 믿고 싶어 하죠. 물론 우리 시스템에도 버그가 많지만, 시스템이 워낙 잘 다듬어져 있기 때문에 최소한 그 위에서 구축할 수는 있습니다. 이게 첫 번째입니다. 생태계의 풍부함, 프로그래머블함, 역량입니다.
두 번째는, 개발자가 무언가를 만들 때 가장 중요한 것이 설치 기반이라는 점입니다. 당신이 쓴 소프트웨어가 많은 다른 컴퓨터에서 실행되길 원하죠. 프레임워크 빌더이기 때문에 당신은 자신만을 위해 소프트웨어를 만드는 것이 아니라, 자기 플릿과 다른 이들의 플릿 전체를 위해 만듭니다. 결국 엔비디아의 CUDA 생태계는 우리의 가장 큰 보물입니다.
지금 세상에는 수억 개의 GPU가 깔려 있습니다. 모든 클라우드에 있고, A10, A100, H100, H200, L시리즈, P시리즈 등 종류도 다양합니다. 형태도, 크기도 다양합니다. 만약 당신이 로보틱스 기업이라면 CUDA 스택이 실제 로봇 안에서도 돌아가기를 원할 겁니다. 우리는 문자 그대로 어디에나 있습니다. 이런 설치 기반은 한 번 소프트웨어나 모델을 개발하면 그것이 어디서나 유용하다는 뜻입니다. 그 가치는 엄청납니다.
마지막으로, 우리가 모든 클라우드에 있다는 점은 우리를 진정 독특하게 만듭니다. AI 기업이나 개발자는 자신이 어느 클라우드 서비스 제공업체와 파트너십을 맺을지, 어디서 돌릴지 아직 확신하지 못할 수 있습니다. 그런데 우리는 어디서나 돌아갑니다. 원한다면 온프레미스에서도요. 이 생태계의 풍부함, 설치 기반의 광범위함, 우리가 존재하는 위치의 다변성이 결합돼 CUDA를 매우 가치 있게 만듭니다.
드와르케시 파텔
말이 됩니다. 다만 제가 궁금한 것은, 이런 장점들이 엔비디아의 핵심 고객들에게도 정말 중요하냐는 겁니다. 분명 많은 사람들에게는 중요할 수 있습니다. 하지만 실제로 자체 소프트웨어 스택을 만들 수 있는 집단이 매출의 대부분을 차지합니다. 특히 AI가 검증 루프가 촘촘한 작업, 즉 RL을 걸기 좋은 작업에 점점 강해지는 세상으로 가면, 어텐션이나 MLP 커널을 스케일업 환경에서 가장 효율적으로 쓰는 문제는 매우 검증 가능성이 높은 피드백 루프가 됩니다.
하이퍼스케일러들이 이런 커스텀 커널을 스스로 다 만들 수 있을까요? 엔비디아가 가격 대비 성능이 워낙 좋아서 여전히 엔비디아를 선호할 수는 있겠습니다. 하지만 그 경우 결국 경쟁은 “주어진 달러당 최고의 스펙, 최고의 FLOPs, 최고의 메모리 대역폭이 누구에게 있느냐”의 문제로 바뀌는 것 아닐까요? 역사적으로 엔비디아는 하드웨어와 소프트웨어를 통틀어 AI 전체에서 70%가 넘는 최고 수준의 마진을 가져왔고 지금도 그렇습니다. 그 배경에는 CUDA 해자가 있죠. 그런데 만약 고객 대부분이 CUDA 대신 자체 구축을 감당할 수 있다면, 그런 마진을 계속 유지할 수 있습니까?
젠슨 황
우리는 이 AI 연구소들에 엄청난 수의 엔지니어를 붙여서 같이 일하고 스택을 최적화합니다. 이유는 우리 아키텍처를 우리보다 더 잘 아는 사람이 없기 때문입니다. 이 아키텍처들은 CPU만큼 범용적이지 않습니다. CPU는 일종의 캐딜락 같습니다. 부드럽게 달리는 좋은 차죠. 아주 빠르지는 않지만, 누구나 잘 몰 수 있고, 크루즈 컨트롤도 있고, 모든 게 쉽습니다. 반면 엔비디아 GPU, 즉 가속기는 F1 경주차에 가깝습니다. 시속 100마일까지는 누구나 몰 수 있겠지만, 한계까지 밀어붙이려면 상당한 전문성이 필요합니다. 우리도 커널을 만들 때 AI를 아주 많이 활용합니다.
우리는 앞으로도 한동안 계속 필요할 거라고 확신합니다. 우리의 전문성은 AI 연구소 파트너들이 종종 자기 스택에서 추가로 2배 성능을 더 뽑아내게 해 줍니다. 우리가 특정 커널이나 전체 스택을 최적화한 뒤 모델이 3배, 2배, 50% 빨라지는 일은 드문 일이 아닙니다. 설치 기반, 즉 그들이 보유한 수많은 Hopper와 Blackwell 플릿을 생각하면, 이건 엄청난 숫자입니다. 성능을 2배 ...