세콰이어-"생성형 AI의 첫 번째 막"(OCTOBER 9, 2024)

세콰이어-"생성형 AI의 첫 번째 막"(OCTOBER 9, 2024)

avatar
돌연변이
2024.10.11조회수 1회

Sequoia-"생성형 AI의 첫 번째 막"

부제: 에이전트형 추론 시대의 시작

by SONYA HUANG, PAT GRADY AND O1

원문:Generative AI's Act o1: The Reasoning Era Begins | Sequoia Capital

해당 글은 Chat GPT로 번역하였음을 밝힙니다.



생성형 AI 혁명 2년 차에 접어들며, 연구는 분야를 "빠르게 사고하기" — 즉, 사전 학습된 빠른 응답 제공(시스템 1)에서 "느리게 사고하기" — 즉, 추론을 통한 응답(시스템 2)으로 확장하고 있습니다. 이러한 진화는 새로운 유형의 자율적인 응용 프로그램의 등장을 가능하게 하고 있습니다.


우리의 에세이 “Generative AI: A Creative New World” 발표 2주년을 맞아, AI 생태계는 크게 변모했고, 우리는 앞으로 펼쳐질 미래에 대해 몇 가지 예측을 제시하려 합니다.


생성 AI 시장의 기초 층은 Microsoft/OpenAI, AWS/Anthropic, Meta, Google/DeepMind 등 주요 플레이어 및 제휴 간의 균형을 이루며 안정화되고 있습니다. 경제적 기반과 막대한 자본에 접근할 수 있는 대규모 플레이어만이 남아 있는 상태입니다. 게임 이론적인 구도에서 갈등은 계속 고조되고 있지만, 시장 구조 자체는 점차 견고해지고 있으며, 저렴하고 풍부한 차세대 토큰 예측 기능이 점점 더 보편화될 것임은 분명합니다.


LLM 시장 구조가 안정화되면서 이제 다음 단계가 부상하고 있습니다. 초점은 *'시스템 2' 사고가 중심이 되는 추론 층의 개발과 확장으로 옮겨지고 있습니다. AlphaGo와 같은 모델에 영감을 받아, 이 층은 AI 시스템이 단순히 빠르게 패턴을 맞추는 것을 넘어, 추론, 문제 해결, 인지 작업을 수행할 수 있도록 하는 것을 목표로 합니다. 또한, 새로운 인지 아키텍처와 사용자 인터페이스가 이러한 추론 능력이 사용자에게 전달되고 상호작용하는 방식을 형성하고 있습니다.


* "시스템 2"는 심리학자 대니얼 카너먼(Daniel Kahneman)의 Thinking, Fast and Slow 에서 설명한 두 가지 사고 체계 중 하나로, 여기서 시스템 2는 의식적이고 논리적인 사고에 해당합니다. 이 체계는 느리고, 집중이 필요하며, 문제를 깊이 분석하고 신중하게 결정을 내릴 때 주로 사용됩니다. 이에 반해, "시스템 1"은 빠르고 자동적이며 직관적인 사고를 의미합니다.


이 모든 것이 AI 시장의 창업자들에게는 어떤 의미일까요? 기존 소프트웨어 기업들에게는 어떤 영향을 미칠까요? 그리고 우리는 투자자로서 생성 AI 스택에서 가장 유망한 투자 기회를 어디에서 찾을 수 있을까요?


최신 에세이에서 우리는 LLM 기초 층의 통합이 고차원적인 추론 및 자율적 기능을 확장하는 경쟁의 무대를 어떻게 마련했는지, 그리고 새로운 인지 아키텍처와 사용자 인터페이스를 갖춘 차세대 "킬러 앱"에 대해 논의해 보려 합니다.


Strawberry Fields Forever


2024년의 가장 중요한 모델 업데이트는 OpenAI의 o1에 돌아갑니다. 이전에 Q*로 알려졌고, '스트로베리'라는 별칭으로도 불리는 이 모델은 OpenAI가 모델 품질 리더보드의 정점에 다시 오르는 것 이상의 의미를 지니며, 기존 아키텍처를 현저히 개선한 혁신적인 사례로 평가받고 있습니다. 특히, 이 모델은 참된 일반 추론 능력을 갖춘 최초의 사례로, 추론 시점의 컴퓨팅을 통해 이를 달성했습니다.


이게 무슨 의미일까요? 기존의 사전 학습 모델은 방대한 양의 데이터로부터 차세대 토큰을 예측하는 방식으로 “학습 시점의 컴퓨팅”을 사용합니다. 규모가 커지면서 기본적인 추론 능력이 나타나는 성질이 있지만, 이 추론 능력에는 한계가 있습니다. 만약 모델이 보다 직접적인 방식으로 추론하도록 학습시킬 수 있다면 어떨까요? 이게 바로 ‘스트로베리’에서 벌어지고 있는 일입니다. “추론 시점의 컴퓨팅”이라는 것은 모델이 답변을 내기 전에 잠시 멈추고 생각하도록 요청하는 방식으로, 이때 더 많은 계산 자원이 필요하게 됩니다(그래서 이를 “추론 시점의 컴퓨팅”이라고 부릅니다). 여기서 “멈추고 생각하기(“stop and think”)” 부분이 바로 추론입니다.


AlphaGo와 LLM의 만남


모델이 멈추고 생각할 때 무슨 일이 벌어지는 걸까요?


먼저 2016년 3월의 서울로 잠시 돌아가 봅시다. 이곳에서 인공지능의 역사에 길이 남을 중요한 순간이 펼쳐졌습니다. 바로 AlphaGo와 전설적인 바둑기사 이세돌의 대결입니다. 이는 단순한 AI와 인간의 대결이 아니었으며, AI가 단순히 패턴을 모방하는 것을 넘어선 ‘생각’하는 모습을 세상이 처음 목격한 순간이었습니다.


AlphaGo가 기존의 게임 AI 시스템, 예를 들어 딥 블루와 다른 점은 무엇일까요?

LLM처럼 AlphaGo도 초기에는 프로 바둑기사들의 플레이 데이터를 바탕으로 학습했습니다. 약 3천만 수에 달하는 기존 게임 데이터베이스와 자가 대국 데이터를 통해 사전 학습을 진행했습니다. 하지만, AlphaGo는 사전 학습된 모델을 통해 즉각적인 반응을 내놓는 대신, 시간을 두고 멈춰서 생각합니다. 추론 시점에서 모델은 다양한 가능성의 미래 시나리오를 탐색하고, 각 시나리오를 평가하여 가장 높은 기대 가치를 가진 시나리오(또는 답변)를 선택하여 응답합니다. AlphaGo는 더 많은 시간을 주면 줄수록 성능이 향상되며, 추론 시간이 전혀 주어지지 않는다면, 최고의 인간 플레이어를 이길 수 없습니다. 하지만 추론 시간이 늘어날수록 AlphaGo는 점점 더 발전해 결국 최고의 인간 플레이어를 능가하게 됩니다.


LLM 세계로 돌아갑시다. AlphaGo를 LLM 세계에 그대로 구현하기 어려운 이유는 바로 가치 함수를 만드는 데 있습니다. 이 함수는 답변을 평가하는 기준이 되는데, 바둑처럼 게임의 경우에는 상대적으로 간단합니다. 게임 끝까지 시뮬레이션하여 누가 승리했는지 확인하고 다음 수의 기대 가치를 계산하면 됩니다. 코딩의 경우도 어느 정도 간단한 편입니다. 코드를 테스트하여 작동 여부를 확인할 수 있기 때문입니다.


하지만 첫 번째 에세이 초안을 어떻게 평가할까요? 여행 일정이나 긴 문서의 핵심 용어 요약은 어떻게 점수를 매길 수 있을까요? 이런 것들이 현재의 방법으로는 추론을 어렵게 만드는 이유입니다. 그래서 Strawberry는 논리와 밀접한 영역(예: 코딩, 수학, 과학)에서는 상대적으로 강점을 보이지만, 보다 개방적이고 구조화되지 않은 영역(예: 글쓰기)에서는 다소 약할 수밖에 없습니다.


실제 Strawberry 구현은 철저히 비밀에 부쳐져 있지만, 핵심 아이디어는 모델이 생성한 사고의 흐름에 대한 강화 학습(reinforcement learning around the chains of thought)을 중심으로 합니다. 모델의 사고 흐름을 검토해 보면, 인간이 사고하고 추론하는 방식과 유사한 근본적이고 흥미로운 현상이 발생하고 있음을 확인할 수 있습니다. 예를 들어, o1은 추론 시간이 확장됨에 따라 막힐 때 되돌아가 다시 시도하는 능력을 보여줍니다. 또한 인간처럼 문제를 생각하는 능력도 보여주고 있을 뿐만 아니라(예: 기하 문제를 풀기 위해 구의 점들을 시각화하는 것), 인간이 생각하지 못한 새로운 방식으로 문제를 해결하는 능력도 보이고 있습니다(예: 프로그래밍 대회 문제를 독창적으로 해결하는 것).


모델의 추론 능력을 향상시키기 위해 추론 시점의 계산을 발전시키려는 새로운 아이디어들이 끊임없이 나오고 있습니다. 예를 들어, 보상 함수를 계산하는 새로운 방식이나 생성기와 검증기 간의 격차를 줄이는 새로운 방법들이 연구되고 있으며, 이를 통해 모델의 추론 능력을 강화하려는 시도가 이어지고 있습니다. 다시 말해, 딥 강화 학습(deep reinforcement learning)이 다시 주목받고 있으며, 이를 통해 완전히 새로운 추론 층이 가능해지고 있습니다.


System 1 vs System 2 Thinking


AI의 다음 목표는 단순히 사전 학습된 본능적 반응("시스템 1")을 넘어서 깊고 신중한 추론("시스템 2")으로 도약하는 것입니다. 이제 모델이 단순히 정보를 알고 있는 것만으로는 부족하며, 실시간으로 멈추어 상황을 평가하고, 결정을 내리기 위해 추론할 필요가 있습니다.


사...

회원가입만 해도
이 글을 무료로 읽을 수 있어요.

이미 계정이 있으신가요?로그인하기
댓글 2
avatar
돌연변이
구독자 278명구독중 75명