Pre-training as we know it will unquestionably end

최근 NIPS에서 Ilya Sutskever의 스피치가 있었다.

매년 NIPS에서는 10년 전 NIPS에 나왔던 논문 중에 현재까지 좋은 영향을 미치고 있는 논문을 선정해서 상을 주는데(상 이름은 까먹음) transformer의 전신이 되었던 Seq-to-Seq이 받았다.

Sutskever는 해당 논문의 저자로 수상과 함께 위의 스피치를 했다.

긴 이야기를 했지만 짧게 줄이자면

"기존의 Scaling Law는 끝났다"

Scaling Law라 하면 모델의 크기, 학습 데이터, 학습 컴퓨팅이 지수적으로 증가하면, 모델의 성능은 선형적으로 증가한다는 것이다. 그런데 데이터가 더이상 없다.

We have to deal with the data that we have. There’s only one internet.

이미 올 초 GPT-5 출시가 연기되는 시점부터 Scaling Law는 끝났다는 이야기가 돌고 ...

회원가입만 해도
이 글을 무료로 읽을 수 있어요.