닭고기 요리님의 만화를 보고 문득 떠오른 글입니다.
https://www.valley.town/wsaj-premium/neurons-insight/68f6e50ebab1c9c5230cd3dc
인공지능과 신경과학. 이 두 분야는 각자의 길을 걸어온 듯 보이지만, 궁극적으로는 같은 질문에 답하고자 합니다: 어떻게 지능은 복잡한 세계 속에서 시행착오를 통해 스스로를 개선하고 기술을 습득하는가? 그 해답의 중심에는 놀랍도록 유사한 학습 알고리즘이 존재합니다.
닭고기 요리님의 예시와 같이 가상의 AI 축구 선수와 실제 인간 선수의 훈련 과정을 비교하며, 실리콘 칩과 생물학적 뉴런이 어떻게 동일한 원리로 '최적의 전략'을 찾아 나가는지 설명해보고자 합니다.
하나의 엔진, 두 개의 기계: '강화'라는 공통의 학습법
핵심 원리는 간단합니다. "어떤 행동의 결과가 예상보다 좋으면, 그 행동을 다시 할 확률을 높이고(강화), 예상보다 나쁘면 그 확률을 낮춘다(억제)." 이것이 바로 '강화'의 법칙입니다. AI와 뇌는 각기 다른 부품을 사용할 뿐, 이 법칙을 구현하는 엔진, 즉 '보상 예측 오차(Reward Prediction Error)'는 완벽하게 동일합니다.
1. 예상치 못한 성공: 강력한 '긍정적 강화'
AI의 경우: 처음 훈련을 시작한 AI 공격수는 무작위로 슈팅을 날립니다. 대부분은 빗나가며 벌점(-20점)을 받지만, 그러다 우연히 찬 슈팅이 골망을 흔들어 '+100점'이라는 강력한 보상을 받습니다. AI는 자신의 예상(거의 0점에 가까운)과 실제 결과(+100점) 사이의 거대한 '예측 오차'를 계산합니다. 이 긍정적 오차 ...



