

중국의 AI 스타트업 딥시크는 대규모 언어 모델인 Deepseek R1 모델을 공개함으로써 AI 커뮤니티에 큰 파장을 일으켰습니다. 이 모델은 OpenAI의 GPT와 같은 선도적인 모델에 필적하는 성능을 자랑하면서도 비용과 훈련 시간은 훨씬 적게 소요되었다고 합니다. 딥시크가 활용했다고 주장되는 기술 중 하나는 "Distillation" 입니다. Distillation의 메커니즘, 이점, 단점 등을 알아보겠습니다.
Knowledge Distillation(KD)는 더 작고 단순한 모델("Student")이 더 크고 복잡한 모델("Teacher")의 행동을 모방하도록 학습하는 기술입니다. 방대한 양의 데이터로 훈련된 "Teacher" 모델은 해당 데이터 내의 기본 패턴과 관계애 대한 풍부한 이해를 가지고 있습니다. 더 작은 크기의 감소된 복잡성을 가진 "Student" 모델은 "Teacher"의 성능을 복제하여 효과적으로 지식을 상속받도록 훈련됩니다.
이 개념의 기원은 2006년에 발표된 "Model Compression"이라는 논문에서 찾을 수 있습니다. Caruana 등은 당시 최첨단 분류 모델이었던 수백 개의 기저 분류기로 구성된 대규모 앙상블 모델을 사용하여 방대한 데이터셋에 라벨을 부여한 후, 이 새롭게 라벨된 데이터셋을 이용해 단일 신경망을 전통정인 지도 학습 방식으로 훈련하였고, 이렇게 만들어진 압축 모델은 기존 모델보다 천 배 작고 빠름에도 불구하고 앙상블 모델과 동등한 성능을 보였습니다.
이 후, KD는 자연어...

오픈AI는 말씀하신 조치를 할 수 있을텐데 라마같은 오픈소스 모델은 그러지 못하겠네요. 어쩌면... 클로즈AI라는 점이 이럴때 도움이 될수도있겠네요

API를 통한 학습이 가능한가 싶습니다. 분야 무지렁이로서 뇌피셜이긴 하지만요... 참 재밌는 글 올려주셔서 감사합니다.

API를 통한 대규모 데이터 수집은 기술적으로 가능하고 API 출력을 활용하여 KD를 수행할 수는 있다고 전문가들은 이야기하네요.. 물론 API로 무한정 데이터를 사용하는 것 역시 비용이 발생해서 무한정 데이터를 수집하는 것은 불가능하기 때문에 뛰어난 알고리즘 없이 좋은 모델을 구현하는 것은 역시 어려울 것 같습니다.