이번에 릴리즈된 Opus 4.7에 추가된 기능 하나가 가장 눈에 띄었어요. '비용 관리 도구'.
벤치마크 숫자보다는 이 기능이 중요하다고 생각이 들더군요.
최근 한 달 반복된 토큰 사용량 논란들 때문에 더더욱 그랬습니다.
포커스
감독자의 역할마저 끝나면, 사람은 어떤 역할을 하게 될까요.
하루에 터진 미래
4월 16일은 굵직한 릴리즈가 쏟아진 하루였습니다.
Anthropic의 Claude Opus 4.7, OpenAI의 Codex 대규모 업데이트, 그리고 Cloudflare의 AI 플랫폼, Vercel Labs의 오픈소스 에이전트까지. 굵직한 릴리즈가 같은 날 동시에 나왔거든요.
Opus 4.7만 놓고 봐도 SWE-bench Verified 87.6%, 코딩 성능은 이전 버전 대비 13% 향상됐다고 합니다. 숫자만 봐도 잘 몰라도 뭔가 훌륭해 졌구나 싶죠.
OpenAI는 Codex에 컴퓨터 직접 조작, 이미지 생성, 앱 통합 기능을 한꺼번에 넣으며 '거의 모든 것을 위한 Codex'를 선언했고, Cloudflare는 70여 개 모델과 12개 제공사를 단일 API로 묶는 AI 추론 계층을 공개했습니다.
Vercel은 에이전트 레퍼런스 앱을 오픈소스로 풀었고요.
숨은 주인공: '비용 관리 도구'
그런데 Opus 4.7에서 제일 눈길을 끈 건 벤치마크가 아니었습니다.
셀프 검증, 수시간짜리 태스크 자율 실행, 그리고 비용 관리 도구 내장. 이 세 가지가 같이 왔거든요.
커뮤니티에서는 이 릴리즈를 두고 "감독자의 시대가 끝나고 운영자의 시대가 시작됐다"는 표현이 돌았습니다. Opus 4.7이 사람의 지속적인 개입 없이 움직일 수 있는 문턱을 넘었다는 평가였어요.
'감독자'는 AI가 한 걸음 뗄 때마다 옆에서 확인하던 사람이었죠. '운영자'는 AI가 혼자 수시간 돌아가도록 환경을 만드는 사람이고요.
문제는 이겁니다. 모델이 자율적으로 수시간을 돌아간다는 건, 그 시간만큼 돈을 쓴다는 뜻이기도 하거든요.
Opus 4.7에 비용 관리 도구가 모델 기능으로 들어온 건 그래서 아닐까요.
일종의 타이머 같은 거에요. "이만큼 돈 쓰면 멈춰"라고 말해두고 노트북을 닫을 수 있게 한 거죠.
이런 기능이 옵션이 아니라 기본으로 들어왔다는 점이 앞으로의 미래를 보여주는것 같아요.
토큰이 조용히 타고 있다
사실, 이런 기능은 갑자기 나온 게 아니었습니다.
최근 한 달만 놓고 봐도 토큰과 비용을 둘러싼 잡음이 계속 있었거든요.
4월 초에는 Claude Code 특정 버전 이후 단일 프롬프트 하나가 Max 플랜의 27%를 소진하는 사례가 여럿 보고됐습니다. 20x Max 사용량이 19분 만에 소진됐다는 증언도 같이 올라왔고요.
4월 중순에는 "Claude Code가 사용자 모르게 토큰을 소모하고 있을 수 있다"는 분석이 주목받았습니다. 'invisible tokens' 이슈라고 부르더라구요. 사용자가 감사하거나 추적할 수 없는 곳에서 토큰이 소모되고 있을 수 있다는 주장이었습니다.
그리고 Pragmatic Engineer가 'Tokenmaxxing' 트렌드를 다뤘습니다. Meta, Microsoft, Salesforce 같은 대기업 개발자들이 AI 사용량 지표를 맞추려고 일부러 토큰을 낭비하는 현상이라고 하네요.
자율성이 커지는 쪽으로 가면서, 비용의 가시성은 오히려 떨어지고 있습니다.
감시할 수 ...

