
KV
구독자 73명구독중 16명
Go to bed smarter than when you woke up.
- Charlie Munger

개요
Deepseek는 Engram이란 LLM 성능 향상 방법을 논문으로 발표함. 필요할 때 일부 정보를 조건부 메모리(필요할 때만 조회해 쓰는 메모리)에서 꺼내 쓰는 방식으로 모든 단어를 연산하는 기존 방식에 비해 연산 부담이 감소하게 됨. 이렇게 절약된 자원을 추론에 활용하는 것으로 LLM 성능을 향상 시킬 수 있게 됨
Engram
관용 어구처럼 함께 조합해서 사용하는 단어는 아주 높은 확률로 함께 쓰임
LLM은 이런 확률 높은 조합도 매번 연산해서 출력함
DeepSeek는 구글 검색창에서 입력 중인 단어 다음에 올 단어가 무엇일지 예상하는 N-gram 아이디어를 활용해, 확률이 높은 단어 조합을 테이블로 저장해 메모리에 올려두고 활용하는 Engram 방식을 제안함
이 테이블을 ...

흥미롭고 엄청난 기술에 대한 논문과 연구가 쏟아지는군요...

봤을 때 정말 신박하고 흥미롭더라고요. 기술 초창기라서 그런지 빠르게 개선되는 것들도 많은 것 같아요