지난번에는 '맥락을 설계하라'는 개념적인 이야기를 했었는데, 이번에는 그 개념이 산업 규모로 실현되고 있는 현장에 대한 소식들이 있네요.
그와 동시에 지금의 LLM 베이스 구조가 드러내는 한계도 있습니다.
에이전트가 강력해질수록, 에이전트가 틀렸을 때 그걸 어떻게 아느냐가 점점 더 중요해지고 있는 것 같아요.
포커스
에이전트가 산업 인프라가 되고, 스스로 진화하고, 그러면서도 자기가 틀렸는지 모른다는 이야기입니다.
에이전트가 산업 인프라로 진입한다
Stripe의 코딩 에이전트 'Minions'는 매주 1,300개의 PR을 완전 자동으로 처리합니다. 사람이 코드를 한 줄도 쓰지 않는 PR이 매주 천 건 넘게 머지되고 있다는 거죠.
하드웨어도 따라가고 있습니다. NVIDIA는 GTC 2026에서 Vera CPU를 발표했는데, 이건 에이전트 AI를 위해 설계된 전용 프로세서입니다.
기존 GPU가 병렬 연산에 최적화되어 있었다면, Vera는 에이전트 실행에 필요한 직렬-병렬 혼합 워크로드에 맞춰져 있구요.
Emergent라는 플랫폼은 비개발자가 50만 달러 규모의 소프트웨어를 5천 달러 미만으로 구현할 수 있게 해줍니다. Google, Amazon 출신 형제가 만든 이 플랫폼에서는 에이전트가 코드 리뷰, 테스트, 디버깅을 실제 엔지니어링팀처럼 수행하고, 생성된 작업 궤적을 장기 기억에 저장해서 유사한 문제가 생기면 성공률을 높이는 구조를 갖추고 있습니다.
Stratechery의 Ben Thompson은 이런 흐름을 보며 "우리는 버블 안에 있지 않다"고 선언했습니다. 에이전트 기반 컴퓨팅은 거품이 아니라 새로운 기반 인프라라는 거죠.
"에이전트를 써볼까"가 아니라 "에이전트 없이 어떻게 하지"로 질문이 바뀌고 있습니다. 도구에서 인프라로, 인프라에서 산업으로 전환이 빠르게 진행되고 있구요.
에이전트가 스스로 진화한다
에이전트가 인프라가 됐으면, 다음 질문은 자연스럽습니다. 에이전트가 스스로 나아질 수 있느냐.
AGR(Artificial General Research)이라는 자율 연구 루프가 공개됐습니다. Karpathy의 autoresearch 개념에서 영감을 받은 건데, 지표와 가드레일만 정의하면 에이전트가 자율적으로 실험하고, 측정하고, 커밋하고, 실패하면 폐기하는 사이클을 반복합니다. 실측 결과가 인상적이에요. C++ 라이브러리 실행 시간을 53초에서 28초로 46% 단축했고, 14회 자율 실험 중 7회가 채택됐습니다.
RLM(Recursive Language Modeling)은 한 걸음 더 나갑니다. 에이전트의 실행 흔적 자체를 데이터로 삼아 실패 패턴을 추출하는 방식인데, GPT-5-mini가 RLM을 적용했을 때 GPT-5 본체보다 OOLONG 벤치마크에서 2배 이상 성과를 냈다는 결과가 나왔습니다. 소형 모델이 대형 모델을 이기는 거죠. 모델 크기가 아니라 루프의 품질이 성능을 결정한다는 이야기입니다.
SkillNet 논문은 에이전트 스킬을 3계층 온톨로지(분류체계 → 관계 그래프 → 패키지 라이브러리)로 자동 구조화하는 방법을 제시했구요. Ouroboros라는 프로젝트는 MCP의 방향성 자체를 뒤집었습니다. 기존에는 "AI가 도구를 호출"하는 방식이었는데, Ouroboros는 "도구가 AI를 사용하도록" 설계됐습니다. MCP 호출 한 번으로 내부에서 작업을 쪼개고, 각 작업마다 새 AI ...


