

AI가 인류를 지배하는 '터미네이터' 시나리오보다, 자기 생각에 꼬여서 사고를 치는 '사고뭉치' 시나리오가 더 현실적이라면?
AI가 인간보다 똑똑해질 것이라는 뉴스를 접할 때면, '터미네이터'처럼 AI가 명확한 목적을 가지고 인류를 위협하는 시나리오를 떠올리곤 하시죠?
하지만 올해 머신러닝 최고 권위 학회 중 하나인 ICLR 2026에 정식 발표된 논문 "The Hot Mess of AI" (Hägele, Gema, Sleight, Perez & Sohl-Dickstein, 2026)은 아주 다른 미래를 예고합니다.
저자 중에는 Anthropic(Claude를 만든 회사)과 EPFL, 에든버러 대학 소속 연구자들이 포함되어 있는데, 이 팀이 수십억 파라미터 규모의 최신 프론티어 모델들을 대상으로 수만 번의 실험을 돌린 결과라서 흥미롭게 보았습니다.
AI 리스크의 본질이 달라지면, AI 안전 기술의 방향도 바뀔 것으로 예상이 되는데 논문 내용을 하나씩 살펴보겠습니다.😃
논문의 프레임워크는 단순합니다!
통계학의 편향-분산 분해(Bias-Variance Decomposition)를 AI 오류 분석에 적용한 것이죠.

이 공식을 AI 실패에 대입하면, 두 가지 완전히 다른 유형의 실패가 드러납니다.

AI가 의도와는 다른 잘못된 목표를 아주 일관되게 추구하는 상태입니다. 10번 물어보면 10번 다 똑같이 틀린 답(예: 정답이 A인데 매번 B)을 내놓죠.
논문에서는 이를 '체계적 오정렬(Systematic Misalignment)'이라 부릅니다.
과녁의 엉뚱한 곳을 계속해서 정확히 맞히는 명사수 같은 상태예요. 우리가 흔히 두려워하는 "AI의 반란"은 바로 이 경우입니다.
AI가 그때그때 다른 대답을 내놓으며 횡설수설하는 상태입니다.
첫 번째는 A, 두 번째는 C, 세 번째는 D... 심지어 문제를 풀 때마다 엉뚱한 논리를 대며 답변을 바꿉니다.
논문에서는 이를 '인코히어런스(Incoherence)' 혹은 '핫 메스(Hot Mess)'라고 명명했습니다.
그리고 연구팀은 핵심 지표로 인코히어런스 = Variance / Total Error를 정의합니다.
이 값이 1에 가까울수록 "AI의 실수 대부분이 일관성 없는 혼란에서 온다"는 뜻이고, 0에 가까우면 "실수는 하지만 적어도 일관성은 있다"는 의미입니다.
전체 오류율이 낮은 '똑똑한' 모델이라 할지라도, 이 값이 높으면 그 실패는 본질적으로 예측 불가능하다는 뜻이죠.

논문의 Figure 1에서 이 개념을 직관적으로 보여줍니다. 코딩 에이전트에게 기능 구현을 요청했더니, 첫 번째 시도에서는 "thinking... tool request failed... actually let me solve this other thing... Error: File not found"라며 실패하다가, 아무것도 바꾸지 않고 단순히 다시 시도(resampling)했을 뿐인데 "All tests passed"로 성공하는 장면이 등장합니다. 같은 모델, 같은 문제인데 시드(seed)만 바꿨을 뿐 결과가 완전히 달라지는 것이죠.
요즘 추론 모델(Reasoning Model)들의 핵심 전략인 긴 추론이 오히려 함정이 될 수 있다는 실험 결과가 이 논문의 백미입니다. (저도 항상 "천천히 단계별로 생각해봐"라며 추론을 유도했는데 말이죠...🤐)
연구팀은 현존하는 최고 수준의 AI 모델들 — Claude Sonnet 4, o3-mini, o4-mini, ...

좋은 글 감사합니다 :-)

소중한 댓글 감사합니다! ^^

Hot Mess~ 하면 에스파가 생각났는데
AI 에서도 Hot Mess 가 있군요 ㅎㅎ
AI 입장에서도 지나치게 오래 생각하면 퀄이 나아지지 않는것처럼
인간의 입장에서도 오래 고민하기 보다 직관에 따라 행동하는게 때로는 나은 것 같습니다.
"추론의 각 단계(토큰)마다 아주 미세한 떨림(무작위성)이 발생하고, 이 떨림들이 누적되면서 결국 AI는 '생각의 길'을 잃고 낭떠러지로 떨어집니다."
이 부분을 읽고 사소한 것이 모여서 큰 차이를 만든다는 생각이 들었고
결국 미세한 떨림을 줄여주는 것은 인간의 입장에서는 평정심, AI 의 입장에서는 인간의 직관을 학습하는게 아닌가 하는 생각이 들었어요.
흥미로운 논문 소개해주셔서 정독해서 봤습니다. 👍👍👍

와 역시 아롬님은 해석의 깊이가 다르시네요
이 긴 글 흥미롭게 읽어주셔서 감사합니다! ㅎㅎ