Turbo Quant
Turbo(터보): 기존에 비해 처리 속도가 빠르다는 뜻
Quant(양자): 양자화의 줄임말로, 정밀한 숫자를 간단한 숫자로 줄이는 것을 의미
터보 퀀트: KV(Key-Value Cache)를 압축하는 기술을 의미
LLM 모델에서 압축 기술이 중요한 이유
챗GPT 등 대화형 AI는 이전 대화내용을 기억하고 맥락에 맞게 대화를 이어감
이전 대화내용을 임시저장하는데, 많은 메모리가 필요함
정밀한 기록을 모두 저정할 필요는 없으므로, 정확도에 문제가 없는 수준으로 압축 필요
이번 터보퀀트 기술은 32비트짜리 기록을 3비트로 압축저장해도 AI 답변에 문제가 없음을 증명함
기존 압축 기술과 터보 퀀트의 차이
기존 압축 기술: 업계 표준인 KIVI 압축기술은 2.6배 압축 가능
엔비디아 KVTC 기술: 20배 압축 기술 보유, but 1% 정도의 정확도 손실 발생
터보퀀트: KV캐시를 6배 정도 압축하면서 정확도 손실도 없음
터보 퀀트의 기술과 과제
1) 데이터의 사전 표준규격화를 통해 AI모델에 2) 적용 가능한 정밀도까지 압축하는 기술로 효율화 달성
논문 테스트 모델은 80억 파라미터 규모의 LLM모델이었고, 4,050억 파라미터의 초거대모델에서도 비슷하게 돌아가는지 검증이 남음
한줄 요약: 터보퀀트는 AI모델에 최적화된 압축 기술, 초거대모델에서도 검증될 경우 메모리 소모량이 획기적으로 줄어들 수 있음
출처: 메르의 블로그, https://blog.naver.com/ranto28/224230601948
제목만 접했을 때보다는 그렇게 큰 변화는 아닌 듯함.
기술 발전의 과정일 뿐인데, 변동성이 큰 시점이다 보니 시장에 큰 충격을 준 것 같음.

