
DeepSeek V4 벤치마크 결과가 유출되었습니다.
SWE-Bench Verified에서 83.7%의 정확도를 기록했습니다.
이는 세계 최고의 코딩 모델이 될 가능성이 높습니다.
참고로, 다른 모델들의 결과는 다음과 같습니다.
DeepSeek V3.2 Thinking: 73.1%
GPT 5.2 High: 80.0%
Kimi K2.5 Thinking: 76.8%
Gemini 3.0 Pro: 76.2%
코딩뿐만이 아닙니다.
다른 벤치마크 결과도 확인해 보세요.
AIME 2026: 99.4%
FrontierMath Tier 4: 23.5% (GPT 5.2보다 11배 우수)
IMO Answer Bench: 88.4%
이 수치들이 사실이라면, DeepSeek V4는 컴퓨터 알고리즘 순위를 완전히 뒤바꿀 것입니다.
중국 연구소들은 속도를 늦추는 것이 아니라 오히려 가속화하고 있습니다.






