
지능의 기원, 막스 베넷, 김성훈 역, 더퀘스트, 2025
보상과 처벌뿐 아니라 기대했던 보상이나 예상했던 처벌의 누락으로 척추동물, 심지어 어류도 훈련시킬 수 있다. 어떤 사람에게는 깜짝 휴일이 디저트 만큼이나 강화 효과가 크다. 반면 선충은 보상이나 처벌의 누락을 통해 임의의 행동을 수행하도록 학습시킬 수 없다. 심지어 독립적으로 여러 가지 지능을 진화시킨 게와 꿀벌도 누락을 통해서는 학습할 수 없다.
척추동물의 시간 측정 정확도는 타의 추종을 불허한다. 척추동물은 어떤 사건이 있고, 정확히 5분 후에 또 다른 사건이 발생했다는 사실을 기억할 수 있다. 반면 달팽이나 편형동물처럼 단순한 좌우대칭동물은 사건과 사건 사이의 정확한 시간 간격을 아예 학습할 수 없다. 심지어 게와 꿀벌처럼 발달한 무척추동물도 사건과 사건 사이의 정확한 시간 간격을 학습하지 못한다.
시간차학습, 실망, 안도, 시간 지각은 서로 모두 관련되어 있다. 정확하게 시간을 지각해야만 누락을 통해 학습하고 실망이나 안도를 언제 촉발할지 알 수 있으며 시간차학습도 제대로 작동할 수 있다. 시간을 지각하지 못하면 뇌는 뭔가가 누락된 것인지 아니면 그냥 아직 일어나지 않은 것인지 알지 못할 것이며, 물고기도 빛이 전기충격과 연합되어 있다는 것은 알겠지만 그 사건이 언제 일어날지는 알 수 없을 것이다.
바닥핵은 겉질과 시상 사이에 끼어 있따. 바닥핵으로 들어오는 입력은 겉질, 시상, 중간뇌에서 온다. 이 입력을 통해 동물의 활동과 외부환경을 살필 수 있다. 이 정보는 가지를 쳤다가 다시 합쳐지고 변형되고 치환되며 바닥핵 안에서 미로 같은 하부구조들을 따라 흐르다가 바닥핵의 출력핵에 도달한다. 출력핵은 수천 개에서 수백만 개의 억제성 신경세포를 갖고 있으며 뇌줄기brainstem의 운동중추로서 강력한 연결을 많이 내보내고 기본적으로 항상 활성화되어 있다. 뇌줄기 운동회로들의 관문은 지속적으로 바닥핵 때문에 닫힌 채 억제되어 있따. 그래서 바닥핵의 특정 신경세포들이 꺼졌을 때만 뇌줄기에서 특정 운동회로의 관문이 열림녀서 활성화된다. 다시 말해 바닥핵은 영속적으로 특정 관문들을 열었다 닫았다 하면서 동물 행동을 꼭두각시처럼 조종한다.
신경과학자들이 바닥핵의 회로를 추적해보니 그 기능이 분명하게 드러났다. 바닥핵은 도파민 분비를 그대화하는 행동을 반복하도록 학습한다. 도파민 분비로 이어지는 행동은 바닥핵이 그런 행동의 관문을 연다. 도파민 억제로 이어지는 행동은 바닥핵이 그런 행동의 관문을 닫는다.
부분적으로 바닥핵은 서튼이 말한 '행위자'라 할 수 있다.
놀랍게도 인간의 뇌와 칠성장의 뇌의 바닥핵 회로는 사실상 동일하다. 공통 조상이 무려 5억 년 전에 등장한 최초의 척추동물이었는데도 말이다. 이를 통해 강화학습이 일어나는 생물학적 영역이 바닥핵은 초기 척추동물의 뇌에서 등장했다는 것을 알 수 있다.
강화학습은 바닥핵읜 단독 행동으로 나타난 것이 아니라 바닥핵과 시상하부라는 척추동물 고유의 또 다른 구조와 오랫동안 상호작용하면서 등장했다. 시상하부는 앞뇌 바닥에 자리잡고 있다.
척추동물의 뇌에서는 처음에 시상하부가 도파민 분비를 조절한다. 시상하부에서 좌우대칭동물 조상의 감정가 감각장치로부터 물려받은 감정가 신경세포가 있다. 추울 때 떨게 만들어 몸을 덥히는 것도, 더울 때 땀이 나게 해서 시원하게 만드는 것도 시상하부다.
시상하부의 감정가 신경세포는 바닥핵 곳곳에서 도파민을 전달하는 도파민 신경세포 그룹과 연결되어 있다. 시상하부가 행복하면 바닥핵을 도파민으로 넘치게 만들고, 시상하부가 속상하면 바닥핵에서 도파민을 고갈시킨다. 어떤 면에서 보면 시상하부는 대체 무엇을 원하는지 정확히는 모르겠지만 근엄하기 짝이 없는 심사위원이고, 바닥핵은 그런 시상하부를 만족시키려 항상 애쓰는 응시생인 셈이다.
시상하부는 예측 단서에는 흥분하지 않는다. 배고플 때는 먹이, 추울 때는 온기 등 오직 자신이 원하는 것을 실제로 얻을 때만 흥분한다. 시상하부는 실제 보상을 받았는지 판단하는 존재다.
민스키가 1950년대에 강화학습 알고리즘을 만들려다가 발견했듯이, 뇌가 실제 보상을 통해서만 학습한다면 똑똑한 행동을 절대 할 수 없을 것이다. 시간적 신뢰 할당 문제가 생기기 때문이다. 그렇다면 실제 보상에 대한 감정가 신호였던 도파민은 어떻게 예측되는 미래 보상에서 나타날 수 있는 변화를 알리는 시간차 신호로 바뀌었을까?
바닥핵 응시생은 처음에는 시상하부라는 심사위원만을 통해 학습하지만, 시간이 지나면서 스스로 판단하는 법을 배워 자기가 실수를 하면 ...