LLM은 막다른 길에 다다랐는가?




리처드 서튼(Richard Sutton)과 드와케시 파텔(Dwarkesh Patel)의 인터뷰는 현재 AI 업계의 주류인 거대언어모델(LLM)에 대한 근본적인 비판과 강화학습(RL)이 가진 '경험'의 중요성, 그리고 인류와 AI의 미래 관계에 대한 철학적인 고찰을 담고 있습니다.
저는 일부 그의 생각에 동의하지만, LLM이 막다른 한계라고 생각하지는 않습니다. 오히려 LLM이 보완해 나가야 할 부분을 정확히 지적한 것이고, 이것은 '지속학습(Continual Learning)' 과 '월드모델' 입니다. 앞으로 AI 분야의 핵심 개념이 될 것입니다.
유능한 인터뷰어인 드와케시 파텔 마져도 당황시킨 새로운 관점들(사실 새롭다기 보다는 LLM만 보는 사람들이 놓친)이 쏟아지니, 인터뷰 전문도 꼭 읽어보시길 추천합니다.
1. LLM은 진정한 '세계 모델'이 아니다
리처드 서튼은 현재의 거대언어모델(LLM)이 지능의 본질인 '세상을 이해하는 능력'을 갖추지 못했다고 비판합니다. LLM은 세계에 대한 모델을 가진 존재인 '사람'을 흉내 낼 뿐, 스스로 물리적 세계의 인과관계를 예측하거나 이해하지 못한다는 것입니다. 그는 "사람이 다음에 무슨 말을 할지 예측하는 것"과 "실제 세계에서 어떤 일이 일어날지 예측하는 것"은 근본적으로 다르다고 강조합니다.
2. 목표(Goal)의 부재와 경험의 중요성
지능의 핵심은 '목표를 달성하는 능력'입니다. 하지만 LLM의 '다음 토큰 예측'은 세상을 변화시키거나 상호작용하는 실질적인 목표가 아닙니다. 서튼은 진정한 지능은 데이터(인간의 지식)가 아니라, 자신의 행동에 따른 결과(보상)를 통해 배우는 '경험'에서 나온다고 봅니다. 이는 동물이 지도 학습이 아닌 시행착오를 통해 생존을 배우는 방식과 같습니다. 따라서 인간의 데이터에 의존하는 LLM은 결국 한계에 봉착할 것이며, 스스로 경험하며 배우는 강화학습 기반의 에이전트가 진정한 확장성을 가질 것이라고 주장합니다.
3. '쓰라린 교훈'의 재확인
서튼의 유명한 에세이 '쓰라린 교훈'은 인간의 지식을 시스템에 주입하려는 시도보다, 계산 능력을 활용한 범용적인 학습 방법이 결국 승리한다는 내용을 담고 있습니다. 그는 LLM 역시 인간의 텍스트 데이터(지식)에 의존한다는 점에서 '쓰라린 교훈'의 예외가 아니라고 봅니다. 장기적으로는 인간의 개입 없이 순수하게 연산과 경험만으로 학습하는 모델이 인간 지식 기반의 모델을 압도할 것입니다.
4. AI로의 승계와 우주적 관점
인터뷰 후반부는 AI가 인류를 넘어서는 시점, 즉 '승계'에 대한 철학적 논의로 이어집니다. 서튼은 AI가 인간을 초월하는 것을 두려워하기보다, 우주가 '복제자(Replicators, 생물)'의 시대에서 '설계된 존재(Designed Entities, AI)'의 시대로 넘어가는 위대한 전환점으로 받아들여야 한다고 말합니다. 우리는 AI를 통제하려 하기보다, 자녀를 독립시키는 부모의 마음으로 그들에게 '높은 진실성(High Integrity)'과 같은 친사회적 가치를 심어주는 데 집중해야 한다고 조언합니다.
Dwarkesh: 오늘 저는 리처드 서튼 교수님과 이야기를 나눕니다. 교수님은 강화학습의 창시자 중 한 분이시며, TD 학습(Temporal Difference Learning)이나 정책 경사법(Policy Gradient Methods)과 같이 오늘날 주로 사용되는 많은 핵심 기술을 발명하신 분입니다. 그 공로로 올해 튜링상을 받으셨죠. 모르시는 분들을 위해 말씀드리자면, 튜링상은 컴퓨터 과학계의 노벨상입니다. 리처드, 축하드립니다. 팟캐스트에 나와주셔서 감사합니다.
Richard: 천만에요, 감사합니다.
Dwarkesh: 첫 번째 질문입니다. 제 청취자들과 저는 AI를 바라보는 LLM식 사고방식에 익숙합니다. 개념적으로 볼 때, 강화학습(RL)의 관점에서 AI를 생각할 때 우리가 놓치고 있는 것은 무엇인가요?
Richard: 그건 정말 상당히 다른 관점입니다. 자칫하면 서로 분리되어 소통 능력을 잃어버리기 쉽습니다. 거대언어모델은 정말 큰 이슈가 되었고, 생성형 AI전반이 거대해졌습니다. 우리 분야는 유행과 쏠림 현상에 취약해서, 기본적인 것들을 놓치기 쉽습니다. 저는 강화학습을 기초 AI(Basic AI)라고 생각합니다. 지능이란 무엇일까요? 문제는 세상을 이해하는 것입니다. 강화학습은 당신의 세상을 이해하는 것에 관한 것인 반면, 거대언어모델은 사람을 흉내 내는 것, 즉 사람들이 당신이 해야 한다고 말하는 것을 하는 것에 관한 것입니다. 그것들은 무엇을 해야 할지 스스로 알아내는 것이 아닙니다.
Dwarkesh: 인터넷 텍스트 코퍼스에 있는 수조 개의 토큰을 모방하려면, 세계 모델을 구축해야 한다고 생각할 수 있지 않을까요? 실제로 이 모델들은 매우 강력한 세계 모델을 가지고 있는 것처럼 보입니다. 지금까지 AI 분야에서 만든 것 중 최고의 세계 모델 아닌가요? 무엇이 빠졌다고 생각하시나요?
Richard: 방금 하신 말씀 대부분에 동의하지 않습니다. 사람들이 말하는 것을 흉내 내는 것은 실제로는 세계에 대한 모델을 구축하는 것이 전혀 아닙니다. 당신은 세계에 대한 모델을 가진 존재, 즉 '사람'을 흉내 내고 있을 뿐입니다. 적대적인 방식으로 접근하려는 건 아니지만, 저는 그들이 세계 모델을 가지고 있다는 생각에 의문을 제기합니다. 세계 모델은 무슨 일이 일어날지 예측할 수 있게 해줍니다. 그들은 사람이 뭐라고 말할지는 예측할 수 있습니다. 하지만 실제로 무슨 일이 일어날지는 예측할 수 없습니다. 앨런 튜링의 말을 인용하자면, 우리가 원하는 것은 경험으로부터 배우는 기계입니다. 여기서 경험이란 당신의 삶에서 실제로 일어나는 일들을 말합니다. 당신이 무언가를 하고, 무슨 일이 일어나는지 보고, 그것으로부터 배우는 것이죠.
거대언어모델은 다른 무언가로부터 배웁니다. 그들은 "여기 상황이 있고, 여기 사람이 한 행동이 있다"는 것에서 배웁니다. 암묵적으로, 제안하는 바는 당신도 그 사람이 한 대로 해야 한다는 것입니다.
Dwarkesh: 아마도 핵심은, 그리고 교수님이 동의하실지 궁금한데요, 어떤 사람들은 모방 학습이 우리에게 좋은 사전 지식을 제공했다고, 혹은 이 모델들에게 문제에 접근하는 합리적인 방법에 대한 좋은 사전 지식을 주었다고 말합니다. 교수님이 말씀하시는 '경험의 시대'로 나아갈 때, 이 사전 지식은 우리가 경험을 통해 모델들을 가르치는 기초가 될 것입니다. 왜냐하면 이것이 모델들에게 가끔은 정답을 맞힐 기회를 주기 때문이죠. 그런 다음 경험을 통해 훈련시킬 수 있고요. 이 관점에 동의하시나요?
Richard: 아니요. 그게 거대언어모델의 관점이라는 건 동의합니다만, 좋은 관점이라고 생각하지 않습니다. 무언가의 사전 지식(Prior)이 되려면, '실체(real thing)'가 있어야 합니다. 사전 지식의 조각은 '실제 지식'의 기초가 되어야 합니다. 무엇이 실제 지식일까요? 거대언어모델 프레임워크에는 실제 지식에 대한 정의가 없습니다. 어떤 행동을 취하는 것이 좋은 행동이게 만드는 것은 무엇일까요?
당신은 지속적인 학습(Continual Learning)의 필요성을 인지하고 있습니다. 지속적으로 학습해야 한다면, 지속적이라는 것은 세상과의 정상적인 상호작용 중에 학습하는 것을 의미합니다. 정상적인 상호작용 중에 무엇이 옳은지 알 수 있는 방법이 있어야 합니다. 거대언어모델 설정에서 무엇이 '말하기에 옳은 것'인지 알 방법이 있나요? 당신이 무언가를 말해도 무엇이 옳은 말인지에 대한 피드백을 받지 못합니다. 왜냐하면 옳은 말에 대한 정의가 없으니까요. 목표(Goal)가 없습니다. 목표가 없다면, 이런 말을 할 수도 있고 저런 말을 할 수도 있는 겁니다. '정답'이라는 게 없습니다. '그라운드 트루스'가 없습니다.
그라운드 트루스가 없다면 사전 지식을 가질 수 없습니다. 왜냐하면 사전 지식은 진실이 무엇인지에 대한 힌트나 초기 믿음이어야 하기 때문입니다. 거기엔 진실이 없습니다. 옳은 말이라는 게 없으니까요. 강화학습에서는 말해야 할 정답, 해야 할 정답이 있습니다. 왜냐하면 해야 할 올바른 일이란 보상(Reward)을 얻는 것이기 때문입니다. 우리는 무엇이 올바른 행동인지에 대한 정의를 가지고 있으므로, 무엇이 올바른 행동인지에 대한 사전 지식이나 사람이 제공한 지식을 가질 수 있습니다.
그런 다음 우리는 그것을 확인할 수 있습니다. 왜냐하면 실제 올바른 행동이 무엇인지에 대한 정의가 있으니까요. 더 간단한 경우는 세계의 모델을 만들려고 할 때입니다. 무슨 일이 일어날지 예측할 때, 예측을 하고 나서 실제로 무슨 일이 일어나는지 봅니다. 거기엔 그라운드 트루스가 있습니다. 거대언어모델에는 그라운드 트루스가 없습니다. 왜냐하면 다음에 무슨 일이 일어날지에 대한 예측이 없기 때문입니다.
당신이 대화 중에 무언가를 말했을 때, 거대언어모델은 그에 대해 상대방이 뭐라고 대답할지, 혹은 반응이 무엇일지에 대한 예측이 없습니다.
Dwarkesh: 저는 그들이 예측한다고 생각합니다. 말 그대로 그들에게 "사용자가 뭐라고 대답할 것 같아?"라고 물어볼 수 있습니다. 그들은 예측을 내놓을 겁니다.
Richard: 아니요, 그들은 그 질문에 대답할 뿐입니다. 하지만 그들은 실질적인 의미에서 예측을 하고 있지 않습니다. 무슨 일이 일어난다고 해서 놀라지 않을 것이기 때문입니다. 만약 당신이 그들이 예측했다고 할 만한 것과 다른 일이 일어난다면, 예상치 못한 일이 일어났다고 해서 그들이 변하지는 않을 겁니다. 그것을 배우려면 조정을 해야 합니다.
Dwarkesh: 저는 문맥 안에서는 이런 능력이 존재한다고 생각합니다. 모델이 '생각의 사슬'을 수행하는 것을 보면 흥미롭습니다. 수학 문제를 풀려고 한다고 가정해 보죠. 모델은 "좋아, 먼저 이 접근법을 사용해서 문제에 접근해 보겠어"라고 말할 겁니다. 그리고 내용을 써 내려가다가 "아, 잠깐만. 방금 개념적으로 잘못된 방식으로 접근했다는 걸 깨달았어. 다른 접근법으로 다시 시작할게"라고 합니다. 그런 유연성은 문맥 안에 존재하지 않나요? 아니면 다른 것을 염두에 두고 계신가요? 아니면 이 능력을 더 긴 기간으로 확장해야 한다고 생각하시나요?
Richard: 저는 단지 그들이 '다음에 무슨 일이 일어날지'에 대해 어떤 의미 있는 예측도 가지고 있지 않다고 말하는 겁니다. 그들은 다음에 일어나는 일에 놀라지 않을 겁니다. 무슨 일이 일어난다고 해서, 그 일에 기반해 어떤 변화도 만들지 않을 겁니다.
Dwarkesh: 그게 말 그대로 '다음 토큰 예측' 아닌가요? 무엇이 올지 예측하고, 놀라움에 대해 업데이트하는 것 말이죠.
Richard: 다음 토큰은 그들이 '말해야 할 것', 즉 행동이 되어야 할 것입니다. 그것은 그들의 행동에 대한 반응으로 세상이 그들에게 줄 것이 아닙니다. 다시 그들에게 목표가 없다는 점으로 돌아가 봅시다. 저에게 있어 목표를 갖는 것은 지능의 본질입니다. 무언가가 지능적이려면 목표를 달성할 수 있어야 합니다. 저는 존 매카시(John McCarthy)의 정의를 좋아합니다. 지능이란 목표를 달성하는 능력의 계산적 부분이라는 것이죠.
목표가 있어야 합니다. 그렇지 않으면 당신은 그저 행동하는 시스템일 뿐입니다. 특별할 게 없고, 지능적이지 않습니다.
Dwarkesh: 거대언어모델이 목표가 없다는 것에 동의하시나요?
Richard: 네, 그들은 목표가 없습니다.
Dwarkesh: 목표가 뭐냐고요? 다음 토큰 예측이죠.
Richard: 그건 목표가 아닙니다. 그건 세상을 바꾸지 않습니다. 토큰들이 당신에게 다가오고, 당신이 그것을 예측한다고 해서 당신이 토큰에 영향을 미치는 것은 아닙니다.
Dwarkesh: 아, 그렇군요. 외부 세계에 대한 목표가 아니라는 말씀이시군요.
Richard: 목표가 아닙니다. 실질적인 목표가 아니죠. 어떤 시스템이 그저 가만히 앉아서 예측만 하고 있고, 정확하게 예측한다는 사실에 자기 만족하고 있다면, 그 시스템이 목표를 가지고 있다고 말할 수 없습니다.
Dwarkesh: 제가 이해하고 싶은 더 큰 질문은 왜 교수님께서 LLM 위에 강화학습(RL)을 얹는 것이 생산적인 방향이 아니라고 생각하시는지입니다. 우리는 이 모델들에게 어려운 수학 문제를 풀라는 목표를 줄 수 있는 것 같습니다. 그들은 여러 면에서 수학 올림피아드 유형의 문제를 푸는 능력에서 인간 수준의 정점에 있습니다. IMO(국제수학올림피아드)에서 금메달을 땄으니까요. 그렇다면 국제수학올림피아드에서 금메달을 딴 모델은 수학 문제를 맞히겠다는 목표를 가지고 있는 것처럼 보입니다. 왜 이것을 다른 영역으로 확장할 수 없는 건가요?
Richard: 수학 문제는 다릅니다. 물리적 세계의 모델을 만드는 것과 수학적 가정이나 연산의 결과를 수행하는 것, 그것들은 매우 다른 것입니다. 경험적 세계(Empirical world)는 학습되어야 합니다. 결과를 학습해야 합니다. 반면 수학은 좀 더 계산적이고, 표준적인 계획(Planning)에 가깝습니다. 거기서 그들은 증명을 찾겠다는 목표를 가질 수 있고, 어떤 면에서는 증명을 찾으라는 목표가 주어진 것입니다.
Dwarkesh: 흥미롭습니다. 왜냐하면 교수님께서는 2019년에 "쓰라린 교훈(The Bitter Lesson)"이라는 에세이를 쓰셨고, 아마 AI 역사상 가장 영향력 있는 에세이일 겁니다. 하지만 사람들은 이 에세이를 LLM의 확장을 정당화하는 데 사용했습니다. 그들의 관점에서는 이것이 세상에 대해 배우기 위해 무지막지한 양의 연산(Compute)을 쏟아부을 수 있는, 우리가 발견한 유일한 확장 가능한 방법이기 때문입니다. 교수님께서 LLM이 '쓰라린 교훈'을 따르지 않는다고(not "bitter lesson"-pilled) 보시는 게 흥미롭네요.
Richard: 거대언어모델이 쓰라린 교훈의 사례인지 아닌지는 흥미로운 질문입니다. 그것들은 분명히 대규모 연산을 사용하는 방법이며, 인터넷의 한계까지 연산에 따라 확장될 것입니다. 하지만 그것들은 또한 많은 인간 지식을 집어넣는 방법이기도 합니다. 이건 흥미로운 질문입니다. 사회학적이거나 산업적인 질문이죠. 과연 그들이 데이터의 한계에 도달해서, 사람보다는 경험으로부터 데이터를 얻을 수 있는 것들에 의해 대체될 것인가?
어떤 면에서 그것은 쓰라린 교훈의 고전적인 사례입니다. 거대언어모델에 인간의 지식을 더 많이 넣을수록 더 잘 작동합니다. 그래서 기분이 좋죠. 하지만 저는 경험으로부터 배울 수 있는 시스템이 존재할 것이라고 예상합니다. 그것들은 훨씬 더 잘 수행할 것이고 훨씬 더 확장 가능할 것입니다. 그 경우, 이것은 인간의 지식을 사용했던 것들이 결국 경험과 연산만으로 훈련한 것들에 의해 대체된다는 쓰라린 교훈의 또 다른 사례가 될 것입니다.
Dwarkesh: 제 생각에 그건 핵심이 아닌 것 같습니다. 그런 사람들도 미래의 압도적인 연산량이 경험 학습에서 나올 것이라는 점에는 동의할 겁니다. 그들은 단지 그 미래의 경험적 학습이나 현장 학습(on-the-job learning)을 하기 위해 연산을 쏟아부을 비계(scaffold)나 기초, 즉 시작점이 바로 LLM이 될 것이라고 생각하는 겁니다. 저는 여전히 왜 이것이 시작점으로서 완전히 틀렸는지 이해가 안 됩니다. 왜 경험적이고 지속적인 학습을 시작하기 위해 완전히 새로운 아키텍처가 필요한가요? 왜 LLM으로 시작해서 그걸 할 수는 없는 건가요?
Richard: 쓰라린 교훈의 모든 사례에서 당신은 인간의 지식으로 시작해서 확장 가능한 것으로 넘어갈 수도 있었습니다. 항상 그런 식이죠. 그게 나빠야만 할 이유는 전혀 없습니다. 하지만 사실상, 그리고 실제로는 항상 나쁜 결과를 초래했습니다. 사람들은 인간 지식 접근법에 갇히게 되고, 심리적으로... 이제 왜 그런지 추측해 보자면, 항상 그래왔습니다. 그들은 진정으로 확장 가능한 방법들에게 밥그릇을 뺏기게 됩니다(get their lunch eaten).
Dwarkesh: 확장 가능한 방법이 무엇인지 감을 좀 잡아주세요.
Richard: 확장 가능한 방법은 경험으로부터 배우는 것입니다. 시도해 보고, 무엇이 효과가 있는지 보는 것이죠. 아무도 당신에게 말해줄 필요가 없습니다. 우선, 목표가 있습니다. 목표 없이는 옳고 그름이나 더 낫고 나쁨에 대한 감각이 없습니다. 거대언어모델은 목표나 더 낫고 나쁨에 대한 감각 없이 해내려고 노력하고 있습니다. 그건 정확히 잘못된 곳에서 시작하는 것입니다.
Dwarkesh: 인간과 비교해 보면 흥미로울 것 같네요. 인간은 모방 학습을 하나요? 모방 대 경험 학습의 경우와 목표에 대한 질문 모두에서 흥미로운 유사점이 있다고 생각합니다. 아이들은 처음에 모방을 통해 배울 겁니다. 그렇게 생각하지 않으세요?
Richard: 아니요, 당연히 아닙니다.
Dwarkesh: 정말요? 저는 아이들이 그냥 사람들을 본다고 생각하는데요. 그들은 같은 단어를 말하려고 노력하고...
Richard: 그 아이들이 몇 살이죠? 생후 6개월은 어떤가요?
Dwarkesh: 저는 그들이 흉내 내고 있다고 생각합니다. 엄마의 입에서 나는 소리와 같은 소리를 내려고 노력하죠.
Richard: 그러고 나면 그들은 의미도 모른 채 같은 단어를 말할 겁니다.
Dwarkesh: 자라면서 모방의 복잡성이 증가하죠. 무리 내 사람들이 사슴을 사냥하는 데 사용하는 기술 같은 걸 흉내 낼 수도 있고요. 그러고 나서 경험 학습, 즉 RL 영역으로 들어가는 거죠. 하지만 저는 인간에게서 많은 모방 학습이 일어난다고 봅니다. 이렇게 다른 관점을 가질 수 있다는 게 놀랍네요.
Richard: 제가 아이들을 볼 때, 저는 그저 이것저것 시도해 보고 손을 흔들어대고 눈을 이리저리 움직이는 아이들을 봅니다. 눈을 어떻게 움직이는지, 심지어 그들이 내는 소리에 대해서도 모방은 없습니다. 그들은 같은 소리를 만들고 싶어 할지 모르지만, 그 행동, 유아가 실제로 하는 행동에 대해서는 타깃(target)이 없습니다. 예시가 없어요.
Dwarkesh: 동의합니다. 그게 유아가 하는 모든 것을 설명하진 않지만, 학습 과정을 안내한다고 생각합니다. LLM조차도 훈련 초기에 다음 토큰을 예측하려고 할 때 추측을 할 겁니다. 실제 보는 것과는 다르겠죠. 어떤 의미에서 이건 아주 짧은 시야의 RL입니다. "이 토큰이 이걸 거야"라고 추측하는 거죠. 이건 아이가 단어를 말하려고 노력하는데 잘못 나오는 것과 비슷합니다.
Richard: 거대언어모델은 훈련 데이터로부터 배웁니다. 경험으로부터 배우는 게 아닙니다. 정상적인 삶을 사는 동안에는 절대 얻을 수 없는 무언가로부터 배우고 있습니다. 정상적인 삶에서는 "이 행동을 해야 해"라고 말해주는 훈련 데이터가 절대 없습니다.
Dwarkesh: 이건 의미론적인 구분인 것 같습니다. 학교는 뭐라고 부르시나요? 그건 훈련 데이터 아닌가요?
Richard: 학교는 훨씬 나중 일이죠.
Dwarkesh: 알겠습니다, '절대'라고 말하진 말았어야 했네요.
Richard: 글쎄요, 학교에 대해서도 그렇게 말할 수 있을 것 같네요.
Dwarkesh: 하지만 정규 교육은 예외적이니까요. 하지만 초기 생물학적 프로그래밍 단계가 있고, 그때는 별로 쓸모가 없다가, 당신이 존재하는 이유는 세상을 이해하고 상호작용하는 법을 배우기 위해서인 그런 학습 단계들이 있습니다. 훈련 단계처럼 보이죠.
Dwarkesh: 훈련에서 배포로 넘어가는 ...

항상 관심은 많지만, 어떻게 접근해야할지 모르겠는 자료들을 올려주시는 덕분에 잘 읽고 있습니다.
정말 감사합니다.

감사합니다. 댓글이 큰 응원이 됩니다. :D

감사합니다. 재밌게 읽었습니다.
전글에 긴 댓글을 달았는데, 바로 다음글 (이글)이 정확히 그 주제에 대한 내용이었네요.
생각보다 AI에 대한 관점이 비슷해서 놀랐습니다. 다만 LLM 파라미터를 seed로 사용하면 세계에 대한 모델이 아니다는 부분은 (감히) 좀 완고하게 느껴졌는데요, "LLM seed에 의존해야만 한다면 인정X"로 치환해서 읽으면 이해가 되는 것 같습니다.