대형 AI LLM 추론할 때 필수인 KV 캐시를 압축해서 GPU 메모리 사용량을 최대 20배 줄인다고 합니다. Llama 3 같은 모델에서 1% 손실만으로 20배 압축 달성했다고 하네요. 참고로 사용되는 메모리 수를 20배 줄인다는 말은 아닙니다.


대형 AI LLM 추론할 때 필수인 KV 캐시를 압축해서 GPU 메모리 사용량을 최대 20배 줄인다고 합니다. Llama 3 같은 모델에서 1% 손실만으로 20배 압축 달성했다고 하네요. 참고로 사용되는 메모리 수를 20배 줄인다는 말은 아닙니다.


기술은 계속 발전 하는군요..