또마스터의 톡

Gemini 3.1 Pro 모델이 어제 공식 발표 되었네요.~ 벤치마크 결과 간략하게 정리해 보면..

- ARC-AGI-2 (추상적 추론): Gemini 3.1 Pro가 77.1%로 Opus 4.6의 68.8%보다 높은 성능을 보임.

- Humanity's Last Exam (도구 미사용): 44.4%를 기록하여 Opus 4.6(40.0%)을 앞섰음

- GPQA Diamond (과학 지식): 94.3%를 기록하며 Opus 4.6(91.3%) 대비 우수한 정답률

대량의 컨텍스트를 유지하고 정보를 찾는 능력에서 기능적 우위

- MRCR v2 (128k 평균): 84.9% vs 84.0%

- MRCR v2 (1M Pointwise): Gemini 3.1 Pro는 26.3%의 점수를 기록하며 100만 토큰 단위의 문맥을 지원하는 반면, Opus 4.6은 해당 기능을 지원하지 않음

실사용에서 가장 크게 느낀 변화점은 '다음 단계 제안' 이 부분입니다. 너무 빠르게 성능들이 좋아지네요.