똑똑할수록 더 엉망진창? — AI의 진짜 리스크

똑똑할수록 더 엉망진창? — AI의 진짜 리스크

avatar
슈크림빵
2026.02.10조회수 94회
Gemini_Generated_Image_4bxlln4bxlln4bxl.png

AI가 인류를 지배하는 '터미네이터' 시나리오보다, 자기 생각에 꼬여서 사고를 치는 '사고뭉치' 시나리오가 더 현실적이라면?


들어가며: 우리가 상상한 AI의 반란 vs. 현실

AI가 인간보다 똑똑해질 것이라는 뉴스를 접할 때면, '터미네이터'처럼 AI가 명확한 목적을 가지고 인류를 위협하는 시나리오를 떠올리곤 하시죠?


하지만 올해 머신러닝 최고 권위 학회 중 하나인 ICLR 2026에 정식 발표된 논문 "The Hot Mess of AI" (Hägele, Gema, Sleight, Perez & Sohl-Dickstein, 2026)은 아주 다른 미래를 예고합니다.


저자 중에는 Anthropic(Claude를 만든 회사)과 EPFL, 에든버러 대학 소속 연구자들이 포함되어 있는데, 이 팀이 수십억 파라미터 규모의 최신 프론티어 모델들을 대상으로 수만 번의 실험을 돌린 결과라서 흥미롭게 보았습니다.

핵심 결론: AI가 단순히 "나쁜 마음"을 먹는 게 아니라, 사실은 자기 추론에 매몰되어 갈팡질팡하는 '허당(Hot Mess)'이 되어가고 있다.


AI 리스크의 본질이 달라지면, AI 안전 기술의 방향도 바뀔 것으로 예상이 되는데 논문 내용을 하나씩 살펴보겠습니다.😃



1. AI의 두 가지 실수: "고집불통" vs "우왕좌왕"

논문의 프레임워크는 단순합니다!


통계학의 편향-분산 분해(Bias-Variance Decomposition)를 AI 오류 분석에 적용한 것이죠.

image.png


이 공식을 AI 실패에 대입하면, 두 가지 완전히 다른 유형의 실패가 드러납니다.



image.png

편향(Bias) — "목표는 확실한데 틀렸어"

AI가 의도와는 다른 잘못된 목표를 아주 일관되게 추구하는 상태입니다. 10번 물어보면 10번 다 똑같이 틀린 답(예: 정답이 A인데 매번 B)을 내놓죠.


논문에서는 이를 '체계적 오정렬(Systematic Misalignment)'이라 부릅니다.


과녁의 엉뚱한 곳을 계속해서 정확히 맞히는 명사수 같은 상태예요. 우리가 흔히 두려워하는 "AI의 반란"은 바로 이 경우입니다.


분산(Variance) — "나도 내가 뭘 하는지 몰라"

AI가 그때그때 다른 대답을 내놓으며 횡설수설하는 상태입니다.


첫 번째는 A, 두 번째는 C, 세 번째는 D... 심지어 문제를 풀 때마다 엉뚱한 논리를 대며 답변을 바꿉니다.


논문에서는 이를 '인코히어런스(Incoherence)' 혹은 '핫 메스(Hot Mess)'라고 명명했습니다.


그리고 연구팀은 핵심 지표로 인코히어런스 = Variance / Total Error를 정의합니다.


이 값이 1에 가까울수록 "AI의 실수 대부분이 일관성 없는 혼란에서 온다"는 뜻이고, 0에 가까우면 "실수는 하지만 적어도 일관성은 있다"는 의미입니다.


전체 오류율이 낮은 '똑똑한' 모델이라 할지라도, 이 값이 높으면 그 실패는 본질적으로 예측 불가능하다는 뜻이죠.



image.png

논문의 Figure 1에서 이 개념을 직관적으로 보여줍니다. 코딩 에이전트에게 기능 구현을 요청했더니, 첫 번째 시도에서는 "thinking... tool request failed... actually let me solve this other thing... Error: File not found"라며 실패하다가, 아무것도 바꾸지 않고 단순히 다시 시도(resampling)했을 뿐인데 "All tests passed"로 성공하는 장면이 등장합니다. 같은 모델, 같은 문제인데 시드(seed)만 바꿨을 뿐 결과가 완전히 달라지는 것이죠.



2. 오래 생각할수록 더 갈팡질팡한다: 추론 길이와 혼돈의 관계

"AI야, 차근차근 생각해봐(Chain of Thought)."



요즘 추론 모델(Reasoning Model)들의 핵심 전략인 긴 추론이 오히려 함정이 될 수 있다는 실험 결과가 이 논문의 백미입니다. (저도 항상 "천천히 단계별로 생각해봐"라며 추론을 유도했는데 말이죠...🤐)


연구팀은 현존하는 최고 수준의 AI 모델들 — Claude Sonnet 4, o3-mini, o4-mini, ...

회원가입만 해도
이 글을 무료로 읽을 수 있어요.

이미 계정이 있으신가요?로그인하기
댓글 4
avatar
슈크림빵
구독자 65명구독중 11명
AI Engineer로 일하고 있습니다.