안전은 '라우팅'으로, 능력은 '가격표'로: Claude Fable 5 출시

안녕하세요, 슈크림빵입니다. 🧁

어제(6월 9일) 공개된 Anthropic의 새 모델 이야기를 가져왔습니다.

WSJ 기사와 Simon Willison의 첫 사용기를 함께 읽었는데, 두 글에서 기술 뉴스보다 가격표가 먼저 보이네요.

같은 모델, 두 개의 문

Anthropic은 이번에 모델 하나를 두 개의 이름으로 내놓았습니다.

하나는 일반 공개용 Claude Fable 5, 다른 하나는 승인된 기관만 쓸 수 있는 Claude Mythos 5입니다.

회사 설명에 따르면 두 모델의 능력은 같습니다. 차이는 하나, Fable에는 안전 분류기가 붙어 있다는 점입니다.

Mythos는 지난 4월 발표 당시부터 일반 공개하기엔 너무 위험하다고 회사 스스로 판단했던 모델입니다.

미국 행정부가 AI 정책을 재검토하게 만들었고, 보안 업계에서는 이런 모델들이 쏟아내는 버그 리포트의 양을 걱정하는 목소리가 나왔습니다.

그 모델이 두 달 만에, 문을 나눠 단 채로 일반 사용자 앞에 도착한 겁니다.

가드레일이 작동하는 방식이 독특합니다.

생물무기나 소프트웨어 취약점 악용 같은 민감한 질문이 들어오면, Fable은 답변을 거부하는 대신 질문을 구형 모델인 Opus 4.8로 돌려보냅니다.

위험한 능력을 지운 게 아니라, 위험한 질문이 그 능력에 닿지 못하게 경로를 막아 둔 방식입니다.