[3/27]
터보퀀트 관련해서..
터보퀀트: kv cache 압축을 통해 메모리를 세이브..
하지만 메모리 사용량이 줄어들까? 그렇지 않다고 본다.
터보 퀀트가 유용해도 오히려 모델 사이즈를 더 키울 수 있는 방법을 마련했다고 봐야 할듯.
모델 키우기에 급급한 상황에서, kv cache 압축이 된다고 메모리 사용량이 줄진 않을 것이라고 본다.

[3/27]
터보퀀트 관련해서..
터보퀀트: kv cache 압축을 통해 메모리를 세이브..
하지만 메모리 사용량이 줄어들까? 그렇지 않다고 본다.
터보 퀀트가 유용해도 오히려 모델 사이즈를 더 키울 수 있는 방법을 마련했다고 봐야 할듯.
모델 키우기에 급급한 상황에서, kv cache 압축이 된다고 메모리 사용량이 줄진 않을 것이라고 본다.