논문에서 찾은 빅테크 capex의 이유




우연히 재밌는 논문을 발견했습니다.
LLM의 성능과 차원의 개수의 연관성에 대한 논문인데, 빅테크들이 어떻게 그렇게 확신을 가지는지 이해가 되네요.
간단하게 설명하면, 각 토큰(단어) 들이 표현하는 차원(특성) 의 개수보다 모델이 표현할 수 있는 차원의 개수가 현저하게 작은 경우 간섭이 더 자주 일어난다는 내용입니다.
하나의 아주 간략화된 예를 들면..
제가 가진 딸기를 표현하기 위해
딸기의 당도 : 10
딸기의 빨간 정도 : 3
딸기의 크기 : 9
를 각각 숫자로 변환해 저장한다고 해보겠습니다.
대충 [10, 3, 9] 요런 식으로 저장된다고 치죠.
그런데 여기서 우리가 만약 "딸기의 경도: 1" 이라는 특성을 추가로 표현하고 싶다면 어떻게 할까요?
제일 좋은 방법은 차원을 추가해서 [10, 3, 9, 1] 이렇게 표현하는 것이겠지만, 차원을 추가하는 비용이 너무 비싸다면 어떨까요?
실생활이라면 상대적으로 덜 중요한 특성을 하나 버리는 ...


좋은 자료 공유 감사합니다!

읽어주셔서 감사합니다 :)

역시 빅테크들이 미친듯이 capex를 넣는 상황이 이해가 가네요. 과연 LLM으로 AGI가 실현 가능할지 아니면 전혀 새로운 접근법이 나올지 지켜봐야겠네요. 재밌는 논문 소개해주셔서 감사합니다

읽어주셔서 감사합니다. 결국 LLM 으로 agi 실현이 가능하려면 과거 경험에 기반한 사고의 한계가 어디인지가 중요 할 것 같아요 :)

저도 capex투자에는 어느 정도 동의하는 편인데
솔직히 엔비디아 칩 너무 비싸다는 생각이 듭니다.
결국 ai병목은 엔비디아의 독점구조라는 생각이에요.

동의합니다. 그래도 엔비디아 독점은 한동안 깨지기는 어려울 것 같아요

공유해주셔서 감사합니다!

읽어주셔서 감사합니다 :)