AI 논문들은 제목을 참 재밌게 짓는다.
최근 유튜브 보다가 찾게된 논문인 Pirates of the RAG
https://arxiv.org/abs/2412.18295
RAG 시스템의 보안 문제를 다룬다.
RAG는 기업용 AI에서 필수적인 기술인데, 한가지 결정적인 약점이 있다. 데이터를 Embedding하고 나서 보안 관리가 힘들다.
Symentic search의 경우, index search와 다르게 질문을 embedding 한 후에 knn(가까운 이웃찾기)로 정보를 retrival 한다.
그런데 이게 비슷한 정보들이 몰려있다보니 보안 관리가 매우 힘들다. 예를 들어 병원에서 A의 1월 3일 진료기록을 검색했는데 B의 기록이 retrival 될 수 있다.

앞으로 프로젝트를 진행할 때 많이 신경써야 할 부분인거 같다.
투자 관점에서 palantir의 해자가 생각보다 더 강력할 수 있다는 생각도 든다.

