KV Cache 메모

홍진채님 글 보면서 다시 정리

KV Cache와 낸드

예전부터 HBF 말이 돌았음. DRAM으로는 메모리가 부족하다는 뜻임. 현재 AI모델은 LLM이든, VLM이든, 트랜스포머 모델을 사용함. 트랜스포머 모델은 연관도를 계산하는 것임. 언어연관도가 될 수도 있고, 이미지간의 연관도가 될 수 있음. 학습은 각 연관도를 그려서 Map을 만듦.

예를 들어서, "나는 오늘 김치를 먹었다. 그것은 매우 맛있었다."라는 문장이 있다고 해보자. 여기서 "그것"은 이 문장 내에서 "김치"지만, AI가 파악하려면 모든 토큰(단어)을 연관도 계산을 수행해야됨. 즉, 해당 문장의 토큰이 10개정도 된다면, 1 --> 2 --> 3 ... --> 10까지 모든 토큰을 비교해가며 연산을 수행함.

이게 연산이 너무 늘어나니까, 중간결과들을 저장할 공간이 필요해진 것이고 그 저장공간이 KV Cache인 것임. 이번 CES에서 NVDA가 KV Cache의 공간을 별도로 할당할 것이라고 말하면서 본격적으로 시장에 부각됨.

KV Cache 공간을 사용해야되는 이유는 명확한데, 우리도 AI 챗봇을 오래 쓰면 성능이 구려지는 ...

회원가입만 해도
이 글을 무료로 읽을 수 있어요.

공부 중인 것_ 메모용 (디자인하우스,파운드리)

공부 중인 것_ 메모용 (디자인하우스,파운드리)

회원가입만 해도이 글을 무료로 읽을 수 있어요.

공부 중인 것_ 메모용 (디자인하우스,파운드리)

공부 중인 것_ 메모용 (디자인하우스,파운드리)

회원가입만 해도
이 글을 무료로 읽을 수 있어요.