프리미엄
예측대회
투자분석
아카데미
커뮤니티
로그인Valley AI 시작하기시작하기
Valley Space인기
Knowledge Distillation
자꿈두AI 기술

Knowledge Distillation

avatar
자꿈두
2025.02.02조회수 5회
avatar
자꿈두
구독자 9명구독중 5명
비판적으로 세상을 바라보지만 혁신적인 미래에는 낙관적인 투자자입니다. 찰리멍거와 워런 버핏의 투자 철학을 존경하며 지향하는 투자 철학을 가지고 있습니다.

중국의 AI 스타트업 딥시크는 대규모 언어 모델인 Deepseek R1 모델을 공개함으로써 AI 커뮤니티에 큰 파장을 일으켰습니다. 이 모델은 OpenAI의 GPT와 같은 선도적인 모델에 필적하는 성능을 자랑하면서도 비용과 훈련 시간은 훨씬 적게 소요되었다고 합니다. 딥시크가 활용했다고 주장되는 기술 중 하나는 "Distillation" 입니다. Distillation의 메커니즘, 이점, 단점 등을 알아보겠습니다.


Knowledge Distillation(KD)는 더 작고 단순한 모델("Student")이 더 크고 복잡한 모델("Teacher")의 행동을 모방하도록 학습하는 기술입니다. 방대한 양의 데이터로 훈련된 "Teacher" 모델은 해당 데이터 내의 기본 패턴과 관계애 대한 풍부한 이해를 가지고 있습니다. 더 작은 크기의 감소된 복잡성을 가진 "Student" 모델은 "Teacher"의 성능을 복제하여 효과적으로 지식을 상속받도록 훈련됩니다.


이 개념의 기원은 2006년에 발표된 "Model Compression"이라는 논문에서 찾을 수 있습니다. Caruana 등은 당시 최첨단 분류 모델이었던 수백 개의 기저 분류기로 구성된 대규모 앙상블 모델을 사용하여 방대한 데이터셋에 라벨을 부여한 후, 이 새롭게 라벨된 데이터셋을 이용해 단일 신경망을 전통정인 지도 학습 방식으로 훈련하였고, 이렇게 만들어진 압축 모델은 기존 모델보다 천 배 작고 빠름에도 불구하고 앙상블 모델과 동등한 성능을 보였습니다.


이 후, KD는 자연어...

회원가입만 해도
이 글을 무료로 읽을 수 있어요.

Basic 7일 무료 체험 시작하기
이미 계정이 있으신가요?로그인하기
댓글 3개
AI 기술 카테고리의 다른글

Google의 새로운 AI 아키텍쳐 Titans (AI에 대한 새로운 혁신?)

인공지능(AI)의 기술 발전은 유래를 찾아보기 힘들 정도로 빠른 속도로 진화되고 있습니다. 현재 인공지능 혁신을 이끌어 낸 것은 단연 2017년에 발표된 Transformer 알고리즘을 이야기할 수 있습니다. 당시 구글에서는 'Attention is All You Need'라는 논문을 발표하며 이전까지 자연어 처리에 주로 사용되던 RNN(Recurrent Neaural Network) 기반 모델의 한계를 지적하고, 어텐션 메커니즘만을 사용하는 새로운 모델을 제시했습니다. 트랜스포머 모델의 핵심은 어탠션 'Attention' 입니다. 어텐션은 마치 사람이 문장을 읽을 때 중요한 단어에 집중하는 것처럼, 모델이 입력 문장에서 중요한 부분에 집중하여 정보를 처리하도록 하는 메커니즘입니다. 트랜스포머는 입력 문장을 분석하여 각 단어의 의미를 담은 벡터로 변환하는 인코더 부분과, 인코더에서 생성된 벡터를 바탕으로 번역된 문장이나 요약된 문장을 생성하는 디코더 부분으로 구성됩니다. 어텐션은 쿼리(Queary), 키(Key), 값(Value) 이 세가지 요소를 사용합니다. 쿼리는 현재 집중해야 할 단어입니다. 키는 문장 내 다른 모든 단어입니다. 값은 각 키에 해당하는 정보입니다. 어텐션 메커니즘은 쿼리와 각 키의 유사도를 계산하여, 유사도가 높은 키에 해당하는 값에 더 큰 가중치를 부여합니다. 이렇게 하면 쿼리와 관련된 정보에 더 집중하여 문맥을 더 잘 이해할 수 있습니다. 그러나 트랜스포머 알고리즘에는 한계가 존재하였는데요, 긴 문장이나 문서를 다룰 때 앞부분의 정보를 잊어버리거나, 전체 맥락을 파악하는 못하는 경우가 발생하였습니다. 그 이유는 아래 세 가지로 이야기 할 수 있습니다. 제한된 Context Window: 트랜스포머 알고리즘은 입력 데이터를 일정한 크기의 'Window'로 나누어 처리합니다. 이 Window의 크기가 제한되어 있기 때문에 긴 문장이나 문서를 처리할 때 앞부분의 정보가 Window로 밀려나 잊혀질 수 있습니다. 어텐션 메카니즘의 한계: 트랜스포머의 핵심 기술인 어텐션 메커니즘은 문장 내 모든 단어 간의 관계를 파악하여 문맥을 이해합니다. 하지만 문장이 길어질수록 단어 간 관계가 복잡해지고, 어텐션 메커니즘이 모든 관계를 정확하게 파악하기 어려워집니다. 계산 복잡성: 어텐션 메커니즘은 계산량이 많기 때문에 긴 문장을 처리할 때 시간이 오래 걸리고 메모리 사용량도 증가합니다. 이는 트랜스포머 모델의 학습 속도를 늦추고, 더 큰 컨텍스트 창을 사용하기 어렵게 만듭니다. 결론적으로 트랜스포머의 출력은 Context Window 내 토큰 간 직접적인 의존성에만 기반하여 조건부로 생성됩니다. 이러한 의존성의 정확한...
AI 기술
2025. 01. 20
10
11
13
Google의 새로운 AI 아키텍쳐 Titans (AI에 대한 새로운 혁신?)
avatar
미래고래
2025.02.02

오픈AI는 말씀하신 조치를 할 수 있을텐데 라마같은 오픈소스 모델은 그러지 못하겠네요. 어쩌면... 클로즈AI라는 점이 이럴때 도움이 될수도있겠네요

avatar
Pioneer
2025.02.03

API를 통한 학습이 가능한가 싶습니다. 분야 무지렁이로서 뇌피셜이긴 하지만요... 참 재밌는 글 올려주셔서 감사합니다.

avatar
자꿈두
작성자
2025.02.03

API를 통한 대규모 데이터 수집은 기술적으로 가능하고 API 출력을 활용하여 KD를 수행할 수는 있다고 전문가들은 이야기하네요.. 물론 API로 무한정 데이터를 사용하는 것 역시 비용이 발생해서 무한정 데이터를 수집하는 것은 불가능하기 때문에 뛰어난 알고리즘 없이 좋은 모델을 구현하는 것은 역시 어려울 것 같습니다.