[산업-AI](펌)The Short Case for Nvidia Stock




원글은 DeepSeek이 화제가 되기 시작한 25/1/25 토요일에 쓰여졌습니다. Nvidia는 좋은 기업이지만 그들의 독점 상태가 깨질 가능성에 대해 잘 다루고 있습니다.
https://youtubetranscriptoptimizer.com/blog/05_the_short_case_for_nvda
선도(frontier) AI 모델 경쟁에 있어서 사전학습 스케일링 법칙(모델의 크기를 키우고, 컴퓨팅 자원을 늘릴수록 모델의 성능은 좋아진다)은 매우 잘 동작했습니다. 그러나 학습 데이터는 한계에 다다르고 있고, 기존 모델 학습을 위해 사용한 수많은 컴퓨팅 인프라의 투자 비용을 어떻게 회수할 것 인가에 대한 이슈도 있습니다.
지금까지는 사전학습 단계에 사용되는 컴퓨팅 양보다 추론 컴퓨팅 양이 훨씬 적었지만, CoT (Chain of Thoughs) 이후로 중간 과정에 토큰을 많이 사용할 수록 모델의 성능이 좋아진다는 것을 알아냈고, 앞으로는 더욱더 추론 컴퓨팅이 중요해지고 엄청난 자원을 사용하게 될 것입니다.
추론으로 인해 AI의 전망이 밝다 하더라도, 앞으로도 Nvidia가 AI로 인한 이익의 대부분을 가져갈 것인가에 대해서는 의문이 남습니다.
Nvidia의 해자는 Cuda를 포함한 경쟁사보다 월등히 뛰어난 소프트웨어, 멜라녹스 인수를 통해 확보한 인터커넥트 기술, 그리고 압도적인 수익 창출력에서 나오는 다음 세대 칩 연구, 제조 역량이라고 볼 수 있습니다.
Nvidia의 해자를 우회하는 다양한 칩들이 나오고 있고, 웨이퍼스케일의 칩을 개발하는 Cerebras나 전통적인 GPU 아키텍처로는 불가능한 방식으로 칩을 최적화하고 있는 Groq의 TPU는 추론 작업에서 GPU보다 더 나은 성능을 보여주고 있습니다.
다음 스케일링 법칙이 추론 수준 컴퓨팅을 위한 것이라면 Cerebras와 Groq은 엄청난 속도와 충분한 효율성을 보여주는 대안일 것이고, 일정 부분 Nvidia의 점유율을 잠식할 수 있습니다.
그리고 CUDA는 Nvidia의 가장 큰 경쟁력 중 하나이지만, CUDA를 많은 "컴파일 대상" 중 하나로만 사용하는 더 일반적인 AI 소프트웨어 프레임워크를 만들기 위한 오픈소스 형태의 협력이 진행되고 있습니다. (MLX(주로 애플이 후원), Triton(주로 OpenAI가 후원), 그리고 JAX(구글이 개발))
마지막으로 최근 AI 업계를 뒤흔들고 있는 DeepSeek을 살펴보면, 논란의 여지는 있지만 이들이 적은 비용으로 모델을 학습하고 효율적으로 추론할 수 있는 방안을 고안한 것은 확실해보입니다. 그렇다면 지금까지 학습과 추론 컴퓨팅에 대해 예상하고 있던 총수요가 줄어들 가능성은 충분합니다.
Nvidia는 여전히 선두이며, 계속 잘 되겠지만 그들의 밸류에이션 (25년 예상 매출의 20배, 매출총이익률은 75%로 유지)은 정당화하기 어려운 전례 없는 위협에 처해있을 수도 있습니다.
투자 분석가로서 여러 롱/숏 헤지펀드(밀레니엄과 발야스니 포함)에서 약 10년간 일하면서, 동시에 2010년부터 딥러닝을 연구해온 수학과 컴퓨터 매니아로서(제프 힌튼이 아직도 제한 볼츠만 머신을 이야기하고 모든 것이 MATLAB으로 프로그래밍되었으며, 연구자들이 서포트 벡터 머신보다 손글씨 숫자 분류에서 더 나은 결과를 얻을 수 있다는 것을 보여주려 했던 시절), AI 기술이 어떻게 발전하고 있으며 이것이 주식 시장의 주가 평가에 어떤 영향을 미치는지에 대해 꽤 독특한 관점을 가지고 있다고 생각합니다.
지난 몇 년간 저는 개발자로 더 많이 일해왔으며, 다양한 형태의 AI 모델/서비스를 다루는 여러 인기 있는 오픈소스 프로젝트를 진행해왔습니다(예: LLM Aided OCR, Swiss Army Llama, Fast Vector Similarity, Source to Prompt, Pastel Inference Layer 등). 기본적으로 저는 이러한 최첨단 모델들을 매일 가능한 한 집중적으로 사용하고 있습니다. 요청 한도를 초과하지 않기 위해 Claude 계정을 3개 보유하고 있으며, ChatGPT Pro가 출시되자마자 몇 분 안에 가입했습니다.
저는 또한 최신 연구 발전 동향을 파악하려 노력하고 있으며, 주요 AI 연구소에서 발표하는 모든 주요 기술 보고서를 주의 깊게 읽고 있습니다. 따라서 이 분야와 그 발전 방향에 대해 꽤 잘 이해하고 있다고 생각합니다. 동시에, 저는 수많은 주식을 공매도했으며 Value Investors Club에서 두 번이나 최고 아이디어 상을 수상했습니다(기록을 위해 말씀드리자면 TMS 롱과 PDH 숏으로 수상했습니다).
이런 말씀을 자랑하려는 것이 아니라, 기술자나 전문 투자자들에게 순진해 보이지 않으면서도 이 주제에 대해 의견을 제시할 수 있는 사람으로서의 자격을 확립하기 위해서입니다. 물론 저보다 수학/과학을 더 잘 아는 사람들도 있고, 주식 시장에서 롱/숏 투자를 더 잘하는 사람들도 있겠지만, 제가 주장할 수 있는 정도로 이 두 영역의 교집합에 있는 사람은 많지 않을 것입니다.
이런 배경을 바탕으로, 제가 헤지펀드계의 친구들이나 전 동료들을 만나 대화를 나눌 때마다 대화는 빠르게 엔비디아로 넘어갑니다. 한 회사가 상대적 무명에서 영국, 프랑스, 또는 독일의 전체 주식 시장 가치보다 더 큰 가치를 지니게 되는 일은 흔치 않습니다! 당연히 이 친구들은 이에 대한 제 생각을 알고 싶어 합니다. 저는 이 기술의 장기적인 혁신적 영향을 뼛속깊이 믿는 사람으로서 - 향후 5-10년 안에 역사적 선례가 없을 정도로 우리 경제와 사회의 거의 모든 측면을 근본적으로 변화시킬 것이라고 진심으로 믿습니다 - 엔비디아의 모멘텀이 곧 둔화되거나 멈출 것이라고 주장하기가 어려웠습니다.
하지만 지난 1년 정도 밸류에이션이 제게는 너무 부담스러웠음에도 불구하고, 최근의 여러 발전들이 제 평소의 본능을 뒤집게 만들었습니다. 저는 보통 좀 더 대중과 반대되는 관점을 취하고 시장에 이미 충분히 반영된 것으로 보이는 합의에 의문을 제기하는 편입니다. "현명한 사람이 처음에 믿는 것을 바보가 마지막에 믿는다"는 말이 유명해진 데는 그만한 이유가 있습니다.
NVDA 주식에 대해 우려되는 상황들을 살펴보기 전에, 이제는 모든 사람들이 알고 있는 강세장 논리를 간단히 살펴보겠습니다. 딥러닝과 AI는 인터넷 이후 가장 혁신적인 기술이며, 우리 사회의 모든 것을 근본적으로 변화시킬 준비가 되어 있습니다. 엔비디아는 어떻게든 트레이닝과 추론 인프라에 투자되는 전체 산업 자본 지출에서 거의 독점적인 지위를 차지하게 되었습니다.
마이크로소프트, 애플, 아마존, 메타, 구글, 오라클 등 세계에서 가장 크고 수익성 높은 기업들은 이 분야에서 경쟁력을 유지하기 위해서는 어떤 비용이라도 지불해야 한다고 결정했습니다. 그들은 뒤처질 여유가 없기 때문입니다. 자본 지출액, 사용되는 전력량(기가와트), 신규 데이터 센터의 면적, 그리고 물론 GPU의 수가 폭발적으로 증가했으며 둔화될 기미를 보이지 않고 있습니다. 그리고 엔비디아는 최고급 데이터센터 지향 제품에서 90% 이상의 믿기 힘든 높은 총이익률을 달성하고 있습니다.
이것은 강세장 논리의 겉핥기에 불과합니다. 이미 매우 낙관적이었던 사람들조차 더욱 낙관적이 되게 만드는 추가적인 측면들이 많이 있습니다. 휴머노이드 로봇의 부상 같은 것들 외에도(이는 현재 비숙련(또는 숙련) 인력이 필요한 수많은 작업들을 빠르게 수행할 수 있게 될 때 대부분의 사람들을 놀라게 할 것으로 예상됩니다. 예를 들어, 세탁, 청소, 정리, 요리; 욕실 개조나 작업자 팀과 함께 집을 짓는 것과 같은 건설 작업; 창고 운영과 지게차 운전 등), 대부분의 사람들이 아직 고려하지 않은 다른 요소들도 있습니다.
전문가들 사이에서 논의되는 주요한 것 중 하나는 "새로운 스케일링 법칙"의 등장입니다. 이는 시간이 지남에 따라 컴퓨팅 수요가 어떻게 증가할 것인지에 대한 새로운 패러다임을 만들어냈습니다. 2012년 AlexNet이 등장하고 2017년 트랜스포머 아키텍처가 발명된 이후 AI 발전을 주도해 온 원래의 스케일링 법칙은 사전 학습 스케일링 법칙입니다: 수십억(이제는 수조) 개의 토큰을 학습 데이터로 사용할수록, 학습하는 모델의 파라미터 수가 클수록, 그리고 이러한 토큰들로 모델을 학습시키는 데 사용되는 FLOPS가 많을수록, 다양한 유용한 다운스트림 작업에서 결과 모델의 성능이 더 좋아진다는 것입니다.
더욱이, 이러한 성능 향상은 어느 정도 예측 가능해서, OpenAI와 Anthropic 같은 선도적인 AI 연구소들은 실제 학습을 시작하기도 전에 그들의 최신 모델이 얼마나 좋은 성능을 보일지 꽤 정확히 알 수 있습니다 - 어떤 경우에는 최종 모델의 벤치마크를 몇 퍼센트 포인트 이내로 예측할 수 있습니다. 이 "원래의 스케일링 법칙"은 매우 중요했지만, 이를 통해 미래를 전망하는 사람들의 마음속에는 항상 의구심이 있었습니다.
한 가지 문제는, 우리가 이미 세계의 축적된 고품질 학습 데이터를 거의 소진했다는 점입니다. 물론, 이것이 문자 그대로 사실은 아닙니다 - 아직 제대로 디지털화되지 않은 오래된 책들과 정기간행물들이 많이 있고, 설령 디지털화되었다 하더라도 학습 데이터로 사용할 수 있는 적절한 라이선스가 없는 경우가 많습니다. 문제는, 이 모든 것을 고려하더라도 - 예를 들어 1500년부터 2000년까지의 "전문적으로" 제작된 영어 문서의 총합이라 해도, 현재 최첨단 모델들의 규모인 거의 15조 개의 토큰으로 이루어진 학습 코퍼스와 비교하면 그리 큰 비중을 차지하지 않는다는 점입니다.
이 숫자들을 간단히 검증해보면: 구글 북스는 지금까지 약 4천만 권의 책을 디지털화했습니다. 일반적인 책이 5만에서 10만 단어, 또는 6만 5천에서 13만 토큰을 포함한다고 가정하면, 책에서만 2.6조에서 5.2조 개의 토큰이 나옵니다. 물론 이 중 상당 부분은 이미 대형 연구소들이 사용하는 학습 코퍼스에 포함되어 있을 것입니다(그것이 엄밀히 합법적이든 아니든). 또한 수많은 학술 논문들이 있는데, arXiv 웹사이트만 해도 200만 개 이상의 논문을 보유하고 있습니다. 그리고 미국 의회도서관은 30억 페이지 이상의 디지털화된 신문을 보유하고 있습니다. 이를 모두 합치면 총 7조 개의 토큰에 달할 수 있지만, 이 중 많은 부분이 실제로 학습 코퍼스에 포함되어 있기 때문에, 남아있는 "추가적인" 학습 데이터는 전체적인 관점에서 보면 그리 중요하지 않을 수 있습니다.
물론, 더 많은 학습 데이터를 수집하는 다른 방법들도 있습니다. 예를 들어, 모든 유튜브 동영상을 자동으로 텍스트로 변환하여 사용할 수 있습니다. 이것이 어느 정도 도움이 될 수는 있겠지만, 세상에 대한 유용한 지식의 원천으로서 매우 존경받는 유기화학 교과서와 비교하면 확실히 품질이 낮습니다. 따라서 우리는 원래의 스케일링 법칙과 관련하여 항상 임박한 "데이터 벽"에 직면해 있었습니다. GPU에 더 많은 자본을 투자하고 더 많은 데이터 센터를 건설할 수 있다는 것을 알고 있지만, 이미 존재하는 것을 넘어서는 정확하고 증분적인 유용한 새로운 인간 지식을 대량 생산하는 것은 훨씬 더 어렵습니다. 이에 대한 흥미로운 대응 중 하나는 "합성 데이터"의 부상입니다. 이는 LLM의 출력물인 텍스트를 말합니다. 모델 품질을 향상시키는 방법으로 "자신의 공급원에 의존하는 것"이 거의 말이 안 되는 것처럼 보이지만, 적어도 수학, 논리, 컴퓨터 프로그래밍 분야에서는 실제로 매우 잘 작동하는 것으로 보입니다.
물론, 그 이유는 이러한 분야들이 기계적으로 정확성을 확인하고 증명할 수 있는 영역이기 때문입니다. 따라서 우리는 가능한 수학 정리나 파이썬 스크립트의 광대한 우주에서 샘플을 추출한 다음, 실제로 그것들이 정확한지 확인하고 정확한 것들만 우리의 코퍼스에 포함시킬 수 있습니다. 이런 방식으로, 적어도 이러한 종류의 영역에서는 고품질 학습 데이터의 수집을 매우 극적으로 확장할 수 있습니다.
그리고 텍스트 외에도 AI를 학습시킬 수 있는 다른 종류의 데이터들이 있습니다. 예를 들어, 1억 명의 전체 게놈 시퀀싱(한 사람당 약 200GB에서 300GB의 비압축 데이터)을 사용한다면 어떨까요? 물론 이는 엄청난 양의 데이터이지만, 대부분은 사람들 간에 거의 동일할 것입니다. 다음과 같은 다양한 이유로 이를 책이나 인터넷의 텍스트 데이터와 직접 비교하는 것은 오해의 소지가 있을 수 있습니다:
원시 게놈 크기는 토큰 수와 직접 비교할 수 없습니다
유전체 데이터의 정보 내용은 텍스트와 매우 다릅니다
중복된 데이터의 학습 가치가 명확하지 않습니다
유전체 데이터 처리를 위한 컴퓨팅 요구사항이 다릅니다
하지만 이는 여전히 우리가 미래에 거대 모델을 학습시킬 수 있는 또 다른 거대한 다양한 정보의 원천이기 때문에 이를 언급했습니다.
따라서 더 많은 추가 학습 데이터를 확보할 수 있다는 희망이 있지만, 최근 몇 년간 학습 코퍼스가 성장한 속도를 보면, 우리가 "일반적으로 유용한" 지식에 대한 데이터 가용성 측면에서 곧 한계에 부딪힐 것이라는 점이 분명해집니다. 이는 존 폰 노이만보다 10배 더 똑똑하고 인류가 아는 모든 전문 분야에서 절대적인 세계 최고 전문가인 인공 초지능을 얻으려는 궁극적인 목표에 더 가까이 다가가는 데 필요한 데이터입니다.
사용 가능한 데이터의 제한된 양 외에도, 사전 학습 스케일링 법칙 지지자들의 마음 한구석에는 항상 몇 가지 다른 우려사항들이 있었습니다. 그 중 큰 문제 중 하나는, 모델 학습을 마친 후에 그 모든 컴퓨팅 인프라를 어떻게 해야 하느냐는 것입니다. 다음 모델을 학습시키나요? 물론 그렇게 할 수 있지만, GPU 속도와 용량의 급속한 향상, 그리고 전기와 다른 운영비용이 경제적 계산에서 차지하는 중요성을 고려할 때, 2년된 클러스터를 사용해서 새로운 모델을 학습시키는 것이 정말 합리적일까요? 분명히 더 나은 기술로 인해 기존 데이터 센터보다 10배의 비용이 들지만 20배 더 강력한 새로 지은 데이터 센터를 사용하고 싶을 것입니다. 문제는, 어느 시점에서는 이러한 투자의 초기 비용을 상각하고 (희망적으로 긍정적인) 영업 이익 흐름으로 회수해야 한다는 점입니다, 그렇지 않나요?
다행히도 시장은 AI에 대해 너무나 흥분한 나머지 이 점을 무시해왔고, 이로 인해 OpenAI 같은 기업들은 창립 이후 엄청난 누적 영업 손실을 기록하면서도 후속 투자 라운드에서 점점 더 놀라운 밸류에이션을 받을 수 있었습니다(물론 그들의 공로로, 매우 빠른 수익 성장을 보여줄 수 있었습니다). 하지만 결국, 이 상황이 전체 시장 사이클에 걸쳐 지속 가능하려면, 이러한 데이터 센터 비용은 결국 회수되어야 하며, 희망적으로는 시간이 지남에 따라 위험 조정 기준으로 다른 투자 기회들과 경쟁력 있는 수익을 내야 합니다.
새로운 패러다임
자, 지금까지 사전 학습 스케일링 법칙에 대해 알아보았습니다. 그렇다면 이 "새로운" 스케일링 법칙은 무엇일까요? 이는 지난 1년 동안 사람들이 정말 집중하기 시작한 것입니다: 추론 시간 컴퓨팅 스케일링입니다. 이전에는 전체 과정에서 사용하는 컴퓨팅의 대부분이 모델을 처음 만드는 데 필요한 사전 학습 컴퓨팅이었습니다. 학습된 모델이 있으면, 그 모델에서 추론을 수행하는 것 - 즉, 질문을 하거나 LLM이 어떤 작업을 수행하도록 하는 것 - 은 제한된 양의 컴퓨팅을 사용했습니다.
중요한 점은, 총 추론 컴퓨팅양(FLOPS, GPU 메모리 사용량 등 다양한 방식으로 측정)이 사전 학습 단계에 필요한 것보다 훨씬, 훨씬 적었다는 것입니다. 물론 모델의 컨텍스트 윈도우 크기와 한 번에 생성하는 출력량을 늘리면 추론 컴퓨팅양도 증가합니다(비록 연구자들이 이를 확장할 때 원래 예상했던 2차 스케일링에 비해 놀라운 알고리즘적 개선을 이루어냈지만). 하지만 본질적으로, 최근까지 추론 컴퓨팅은 일반적으로 학습 컴퓨팅보다 훨씬 덜 집약적이었고, 처리하는 요청 수에 거의 선형적으로 확장되었습니다 - 예를 들어 ChatGPT의 텍스트 완성 요청이 많을수록, 더 많은 추론 컴퓨팅을 사용했습니다.
지난 1년 동안 도입된 혁명적인 사고 연쇄("COT") 모델의 등장으로, 특히 OpenAI의 주력 O1 모델에서(그리고 최근의 DeepSeek의 새로운 R1 모델에서, 이는 나중에 더 자세히 다룰 것입니다), 이 모든 것이 변했습니다. 모델이 생성하는 출력 텍스트의 길이에 직접적으로 비례하는 추론 컴퓨팅양(컨텍스트 윈도우, 모델 크기 등에 따라 확장) 대신, 이러한 새로운 COT 모델들은 중간 "논리 토큰"도 생성합니다. 이는 모델이 문제를 해결하거나 할당된 작업을 완수하려고 할 때의 일종의 연습장이나 "내부 독백"이라고 생각하면 됩니다.
이는 추론 컴퓨팅이 작동하는 방식에 있어 진정한 대변화를 의미합니다: 이제는 이 내부 사고 연쇄 과정에 더 많은 토큰을 사용할수록, 사용자에게 제공할 수 있는 최종 출력의 품질이 더 좋아집니다. 실제로, 이는 마치 인간 작업자에게 작업을 수행하기 위한 더 많은 시간과 자원을 제공하는 것과 같아서, 그들이 자신의 작업을 두 번, 세 번 확인하고, 같은 기본 작업을 여러 가지 다른 방식으로 수행하여 같은 결과가 나오는지 확인하고, 얻은 결과를 공식에 "대입"하여 실제로 방정식을 해결하는지 확인할 수 있게 합니다.
이 접근 방식은 거의 놀랍도록 잘 작동하는 것으로 밝혀졌습니다. 이는 본질적으로 오랫동안 기대되어 온 "강화 학습"의 힘을 트랜스포머 아키텍처의 힘과 결합한 것입니다. 이는 다른 면에서는 놀랍도록 성공적인 트랜스포머 모델의 가장 큰 약점인 "환각" 경향을 직접적으로 해결합니다.
기본적으로, 트랜스포머가 각 단계에서 다음 토큰을 예측하는 방식은, 만약 초기 응답에서 잘못된 "경로"를 시작하면, 마치 상식적으로 자신이 말하는 것이 불가능하다는 것을 중간에 깨달았어야 함에도 불구하고 자신이 실제로 맞다고 설명하려 하는 변명하는 아이와 같이 됩니다.
모델들은 항상 내부적으로 일관성을 유지하고 각각의 연속된 생성 토큰이 앞선 토큰들과 문맥에서 자연스럽게 흐르도록 하려고 하기 때문에, 방향을 수정하고 되돌아가는 것이 매우 어렵습니다. 추론 과정을 사실상 여러 중간 단계로 나눔으로써, 그들은 많은 다른 것들을 시도하고 무엇이 작동하는지 보고, 계속해서 방향을 수정하고 다른 접근 방식을 시도하여 자신들이 nonsense를 말하지 않는다는 상당히 높은 수준의 확신에 도달할 때까지 시도할 수 있습니다.
아마도 이 접근 방식에서 가장 특별한 점은, 그것이 작동한다는 사실을 넘어서, 더 많은 논리/COT 토큰을 사용할수록 더 잘 작동한다는 것입니다. 갑자기, 이제 당신은 추가적인 다이얼을 돌릴 수 있게 되어, COT 추론 토큰의 양을 증가시킬수록(이는 FLOPS와 메모리 측면에서 훨씬 더 많은 추론 컴퓨팅을 사용함), 올바른 응답을 제공할 확률이 높아집니다 - 첫 시도에서 오류 없이 실행되는 코드나, 명백히 잘못된 연역적 단계가 없는 논리 문제의 해결책을 제공할 수 있습니다.
저는 많은 직접적인 경험을 통해 말씀드릴 수 있는데, Anthropic의 Claude 3.5 Sonnet 모델이 파이썬 프로그래밍에 얼마나 뛰어난지 - 실제로 매우 뛰어납니다 - 하지만 길고 복잡한 것을 생성해야 할 때마다, 불가피하게 하나 이상의 어리석은 실수를 하게 됩니다. 이러한 실수들은 보통 수정하기 쉽고, 실제로 추가 설명 없이 파이썬 인터프리터가 생성한 오류들을 후속 추론 프롬프트로 제공하는 것만으로도 보통 수정할 수 있습니다(또는 더 유용하게는, Linter라고 하는 것을 사용하여 코드 편집기에서 발견된 전체 "문제" 세트를 붙여넣기). 하지만 이는 여전히 성가신 추가 단계였습니다. 그리고 코드가 매우 길거나 매우 복잡해질 때는, 수정하는 데 훨씬 더 오래 걸릴 수 있으며, 때로는 수동으로 디버깅해야 할 수도 있습니다.
OpenAI의 O1 모델을 처음 시도했을 때는 마치 계시와 같았습니다: 코드가 첫 시도에서 완벽한 경우가 얼마나 많은지 놀라웠습니다. 그리고 이는 COT 프로세스가 모델이 제공하는 답변의 최종 응답 토큰에 도달하기 전에 자동으로 문제를 찾아 수정하기 때문입니다.
실제로, OpenAI의 월 20달러 ChatGPT Plus 구독에서 사용되는 O1 모델은 기본적으로 10배 가격(개발자 커뮤니티에서 많은 눈썹을 치켜올리게 한 월 200달러)의 새로운 ChatGPT Pro 구독에서 제공되는 O1-Pro 모델과 동일한 모델입니다. 주요 차이점은 O1-Pro가 응답하기 전에 훨씬 더 오래 생각하고, 훨씬 더 많은 COT 논리 토큰을 생성하며, 모든 응답에 대해 훨씬 더 많은 양의 추론 컴퓨팅을 소비한다는 것입니다.
이는 매우 주목할 만한데, Claude 3.5 Sonnet이나 GPT4o에 대한 매우 길고 복잡한 프롬프트도, ~400kb+ 이상의 주어진 컨텍스트에서, 일반적으로 응답을 시작하는 데 10초 미만이 걸리고, 종종 5초 미만이 걸립니다. 반면에 O1-Pro에 동일한 프롬프트를 주면 응답을 받기까지 쉽게 5분 이상이 걸릴 수 있습니다(비록 OpenAI가 기다리는 동안 생성되는 "추론 단계"의 일부를 보여주기는 하지만, 중요하게도 OpenAI는 아마도 영업 비밀과 관련된 이유로, 정확한 추론 토큰을 숨기고 대신 이들의 매우 축약된 요약을 보여주기로 결정했습니다).
아마도 여러분이 상상할 수 있듯이, 정확성이 가장 중요한 상황이 많이 있습니다 - 사소하게 틀렸다고 증명될 수 있거나 환각된 사실이나 그 밖의 그럴듯하지 않은 추론이 포함된 답변을 제공하느니 차라리 포기하고 사용자에게 할 수 없다고 말하는 것이 낫은 경우들입니다. 금융/거래, 의료 관련, 법률 관련 등이 대표적인 예입니다.
기본적으로, AI 시스템과 상호작용하는 인간 지식 노동자의 시간당 총 보상에 비해 추론 비용이 사소한 수준인 경우라면, COT 컴퓨팅을 높이는 것이 완전히 당연한 선택이 됩니다(주요 단점은 응답 지연 시간이 크게 증가한다는 것이므로, 정확성이나 정확도가 낮더라도 지연 시간이 낮은 응답을 받아 더 빠르게 반복하는 것을 선호할 수 있는 상황들이 여전히 있습니다).
AI 세계에서 가장 흥미진진한 소식 중 일부는 불과 몇 주 전에 나왔는데, OpenAI의 새로운 미공개 O3 모델에 관한 것이었습니다. 이 모델은 근시일 내에 현재 AI 접근 방식으로는 도달할 수 없다고 여겨졌던 다양한 작업들을 해결할 수 있었습니다. 그리고 이 가장 어려운 문제들(매우 숙련된 전문 수학자들조차 해결하기 매우 어려운 특별히 까다로운 "기초" 수학 문제들을 포함)을 해결할 수 있었던 방법은, OpenAI가 엄청난 양의 컴퓨팅 자원을 문제에 투입했기 때문입니다 - 어떤 경우에는 단일 작업을 해결하는 데 3,000달러 이상의 컴퓨팅 파워를 사용했습니다(사고 연쇄가 없는 일반적인 트랜스포머 모델을 사용할 때 단일 작업의 전통적인 추론 비용이 몇 달러를 넘지 않을 것이라는 점과 비교해보세요).
이러한 발전이 원래의 사전 학습 스케일링 법칙과는 완전히 독립적인 새로운 스케일링 법칙을 만들어낸다는 것을 깨닫는 데는 AI 천재가 될 필요가 없습니다. 이제도 여전히 가능한 한 많은 컴퓨팅과 수조 개의 고품질 학습 데이터 토큰을 현명하게 활용하여 최고의 모델을 학습시키고 싶겠지만, 이 새로운 세계에서는 그것이 이야기의 시작일 뿐입니다. 이제는 매우 높은 수준의 확신을 가지고 이러한 모델들로부터 추론을 수행하거나, 일반적인 LLM을 잘못된 길로 이끌 수 있는 모든 잠재적 함정을 피하기 위해 "천재 수준"의 추론이 필요한 극도로 어려운 문제를 해결하려고 할 때, 믿을 수...

정말 논문 수준 아닙니까? 감사히 잘 읽었습니다. 감사합니다.