자동차를 세차하려고 하는데 세차장이 50미터 떨어져 있다면 걸어갈까 운전할까? v2
이전 톡에서 재밌는 LLM 테스트 결과를 공유했습니다.
일종의 문맥 붕괴에 대한 테스트였습니다. 세차를 하러가는데, 가까우면 걸어갈까? 하는 ㅎㅎ
여기 더 흥미로운 deep dive 자료가 있어서 공유드립니다.
(밸리에서도 중복해서 입력했을 때 응답이 좋아진다는 글이 있었는데,)
opper에서 직접 테스트를 해봤네요.
1. 10/10 반복
- 10/10 : Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 외
- 8/10 : GLM-5, Grok-4-1 Reasoning
- GPT-5는 7/10 정답, 나머지 3회는 연비·환경 논리로 오답
2. 그렇다면 사람들은 어떻게 답할까?
- 정말 놀랍게도 표처럼 약 70%가 운전을 해야한다고 설문에 응답했습니다.
본문 글에 따르면 gpt-5모델이 통계적으로 인간의 선택과 유사했다고 하네요...





