에이전트를 하나만 쓰는 게 아니라, 여럿을 팀으로 운영하는 사례가 풍부해지고 있습니다.
동시에, 그 에이전트들이 실제로 일을 잘 하는지 측정하는 도구가 거짓말을 하고 있다는 연구도 나왔습니다.
AI와 대화하다 보면 내 생각이 아닌 AI의 생각을 내 것으로 착각하게 된다는 말도 있네요.
맡기는 건 점점 쉬워지는데, 그 과정에서 서서히 잃어가는 것이 있다는게 이번 주제입니다.
포커스
에이전트에게 더 많이 맡기는 시대가 오고 있는데, 정작 중요한 것들이 조용히 사라지고 있다는 이야기입니다.
"에이전트를 쓰는 시대"에서 "에이전트 팀을 관리하는 시대"로
이번 주 가장 인상적인 사례는 Claire Vo의 이야기였습니다. 3대의 Mac Mini에서 9개의 AI 에이전트를 동시에 돌리면서 영업, 가족 일정 관리, 팟캐스트 제작까지 자동화했다구요.
흥미로운 건 에이전트를 관리하는 방식입니다. 각 에이전트에 'Soul'이라는 마크다운 파일을 부여해서 성격과 말투를 정의하고, 'Heartbeat'라는 시스템으로 에이전트가 스스로 자기 상태를 체크인하게 만들었구요. "에이전트 관리는 자녀 양육과 비슷하다"는 그녀의 표현이 재밌으면서도 현실적입니다.
에이전트를 부리는 도구도 빠르게 진화하고 있습니다. OpenClaw의 차기 버전은 MCP 프로토콜로 동작하면서, /acp spawn codex라는 명령 하나로 현재 세션을 다른 에이전트로 전환할 수 있게 됐구요. 에이전트가 에이전트를 소환하는 구조인 거죠.
cron으로 10분마다 자율 실행하는 에이전트도 나왔고, 4개 전문 에이전트가 서로 협력하며 추론 능력을 함께 키우는 연구도 발표됐습니다. Karpathy는 "코드가 아니라 서비스, 결제, 인증, DB를 조립하는 DevOps가 진짜 어려운 부분인데, 에이전트가 이 전체를 코드로 처리하는 게 기술적으로 가능해졌다"고 했구요. 이 트윗에 78만 뷰가 쏟아진 건, 많은 사람이 같은 생각을 하고 있다는 뜻이겠죠.
에이전트를 팀으로 운영하는 건 분명 매력적인 그림입니다. 그런데, 그 에이전트들이 실제로 일을 잘 하는지는 어떻게 아는 걸까요.
벤치마크는 통과하는데, 진짜 일은 못 한다
위스콘신대와 MIT의 공동 연구가 꽤 충격적인 결과를 내놨습니다. Claude Opus 4.6, GPT 5.4를 포함한 11개 모델에게 반복적인 코딩 작업을 시켰더니, 단 하나의 모델도 처음부터 끝까지 문제를 해결하지 못했다구요.
더 흥미로운 건 이겁니다. 개별 테스트의 통과율은 높게 유지됐거나 오히려 올라갔는데, 코드가 점점 길어지고 복잡해지면서 유지보수성은 오히려 나빠졌다는 거예요. 시험 점수는 올랐는데 실력은 떨어진 셈이죠.
기존 벤치마크가 측정하는 것과 실제 소프트웨어 품질 사이에 구조적인 괴리가 있다는 직격탄입니다. 우리가 "이 모델이 저 모델보다 낫다"고 판단하는 근거가, 실은 엉뚱한 걸 재고 있었을 수 있다는 거구요.
현장에서도 비슷한 신호가 나오고 있습니다. Claude Code에서 git reset --hard를 10분마다 자동 실행하는 버그가 보고됐고, Opus 4.6의 품질이 갑자기 떨어졌다는 사용자 보고도 이어지고 있거든요. 벤치마크 수치와 실사용 경험의 간극이 크다는 걸 체감하게 되는 장면입니다.
벤치마크가 거짓말을 하는 건 불편하지만, 적어도 눈에 보이는 문제입니다. 숫자를 의심하면 되니까요. 더 ...

