보상(Reward), 기쁨(Pleasure) 그리고 동기(Motivation) | Valley AI

보상(Reward), 기쁨(Pleasure) 그리고 동기(Motivation) | Valley AI

오늘 제가 할 이야기는 간단합니다.

우리 뇌가 어떻게 '보상 Reward'을 학습하고 선택하는지, 그리고 이 과정에 관여하는 4개의 핵심 주제들

도파민 Dopamine

선조체 Striatum

안와전두피질 OFC

편도체 Amygdala

이 무엇인지 설명할 겁니다.

그리고 이 모든 것들의 핵심이 바로 '예측오차(기대와 현실의 차이)'라는 이야기입니다.

보상 Reward 의 기능: 왜 '기쁨' Pleasure 이 필요할까?

보상의 최종 목표는 우리가 살아남고 자손을 남기게 하는 것입니다.
그러므로 진화적 과정에서 뇌는 우리가 생존에 유리한 행동(예: 밥 먹기)을 할 때마다 3가지 '보너스'를 줍니다.
1. 기쁨 (기분 좋음): "와! 맛있다! 기분 최고!"
2. 학습 (기억하기): "이 식당(행동) 기억해 둬! 다음에 또 와야지."
3. 동기/선택 (우선순위 정하기): "저기 맛없는 풀 말고, 여기 맛있는 고기를 골라야겠어."

결국 '기분이 좋다'는 느낌은, 뇌가 우리에게 "너 지금 생존에 아주 잘하고 있어!"라고 도장을 찍어주면서 그 행동을 계속하게 만들려는 '당근'인 셈입니다.

학습: '깜짝 보너스'가 핵심 엔진이다

뇌는 '예측오차 = 실제 보상 - 예측한 보상'라는 신호로 학습합니다.
뇌가 가장 열심히 배우는 순간은 '예상과 다를 때'입니다. '파블로프의 개' 대신 '월급날' 예시로 설명해 드릴게요.
- 1단계 (학습 전): 이번 달 월급이 200만 원일 줄 알았는데(예측 200), 300만 원이 입금됐어요(실제 300).
  예측오차 = +100! "와! 웬 보너스지? 대박!" 뇌는 이 '깜짝 보너스(+오차)'에 흥분하며 "내가 뭘 했길래 보너스를 받았지?"(예: 야근)를 미친 듯이 학습합니다.
- 2단계 (학습 완료): 다음 달에도 보너스를 기대하며 300만 원을 예측했는데(예측 300), 300만 원이 입금됐어요(실제 300).
  예측오차 = 0. "음, 예상대로군." 기분은 좋지만 '깜짝' 놀라진 않았죠? 뇌는 "예상대로네. 더 배울 건 없군." 하고 넘어갑니다.
- 3단계 (소거): 다음 달에도 300만 원을 기대했는데(예측 300), 200만 원만 입금됐어요(실제 200).
  예측오차 = -100! "어? 보너스 어디 갔어?" 뇌는 이 '실망감(-오차)'을 통해 "아, 이제 야근해도 보너스 안 나오네."라고 배운 것을 지우기(소거하기) ...

회원가입만 해도
이 글을 무료로 읽을 수 있어요.

Basic 7일 무료 체험 시작하기

이미 계정이 있으신가요?로그인하기