어제 쓴 글을 다시 읽으며 드는 생각은 최근 aws의 하락은 역시 이해가 안된다는 것
1. LLM의 정확도가 모델이 가진 차원의 스케일링 여부에 따라 갈린다는 점 (모델 정확도를 늘리는 길이 스케일링이라는게 수학적으로 밝혀짐, 데이터센터는 준공 즉시 ai 기업들의 러브콜을 받을 수 밖에 없음)
2. 차원의 크기가 효율적으로 사용될 수 있는 특정 분야 전문 모델 + 거대한 컴퓨팅 자원 두 가지 해자를 모두 갖춘 앤트로픽의 지분을 상당히 보유하고 있는 점 (클로드 코드가 아무리 비싸도 특정 분야에서는 대채제가 없음, 안쓰면 도태됨)
즉, 제미나이나 지피티보다 실제로 가시적인 돈을 더 빨리, 많이 벌게되는 쪽은 클로드 일 것. 특히 돈을 쓸어 담을 수 있는 개발과 금융쪽에서.
아마존은 충분히 Ai시대의 승자가 될만함.

국산장기채
2026.02.10
논문에서 찾은 빅테크 capex의 이유
우연히 재밌는 논문을 발견했습니다.
LLM의 성능과 차원의 개수의 연관성에 대한 논문인데, 빅테크들이 어떻게 그렇게 확신을 가지는지 이해가 되네요.
간단하게 설명하면, 각 토큰(단어) 들이 표현하는 차원(특성) 의 개수보다 모델이 표현할 수 있는 차원의 개수가 현저하게 작은 경우 간섭이 더 자주 일어난다는 내용입니다.
하나의 아주 간략화된 예를 들면..
제가 가진 딸기를 표현하기 위해
딸기의 당도 : 10
딸기의 빨간 정도 : 3
딸기의 크기 : 9
를 각각 숫자로 변환해 저장한다고 해보겠습니다.
대충 [10, 3, 9] 요런 식으로 저장된다고 치죠.
그런데 여기서 우리가 만약 "딸기의 경도: 1" 이라는 특성을 추가로 표현하고 싶다면 어떻게 할까요?
제일 좋은 방법은 차원을 추가해서 [10, 3, 9, 1] 이렇게 표현하는 것이겠지만, 차원을 추가하는 비용이 너무 비싸다면 어떨까요?
실생활이라면 상대적으로 덜 중요한 특성을 하나 버리는 선택을 하는게 합리적이죠?
그러나 llm은 다른 선택을 합니다.
기존에 "딸기의 크기" 를 표현하던 차원에 "딸기의 경도" 값을 섞어버리는 겁니다.
[10, 3, 9 + 1] 요런식으로요.
논문에선 재밌게도 이 상태를 superposition 즉, 중첩 상태라고 부릅니다. 양자역학이 떠오르네요.
이런식으로 중첩이 일어나면 어떻게 될까요?
"크기가 10인 딸기 를 찾아줘"
또는
"경도가 10인 딸기를 찾아줘"
라는 질문에 아까 저장한 딸기를 결과로 제공하게 됩니다.
저 딸기의 실제 크기는 9, 경도는 1 이지만요.
이를 논문에선 '간섭'이라고 부르고요.
그래서 모델이 작을때는 덜 정확한 답변이 나올 확률이 올라가는 거죠.
논문에선 모델의 크기와 정확도의 상관관계가 수식으로 표현될만큼 유의미하다고 하네요.
또, 논문에 따르면 지금 대부분의 프론티어 모델들은 strong superposition, 즉, 이러한 중첩이 엄청나게 많아서 차원을 늘리면 즉시 정확도 개선 효과를 볼 수 있는 상태에 있다고 합니다.
빅테크들이 어떻게 그렇게 확신을 가지고 스케일링에 돈을 쏟는지 어느정도 이해가 되네요.
또 이럴수록, Llm 자체에서 벗어나는 ai 혁신이 있지 않는 이상, 이미 거대한 컴퓨팅 자원을 가진 기업을 이길 스타트업은 나오기 힘들게 되겠다는 생각도 들고요.
그나마 지금 제미나이나 gpt처럼 범용이 아니라 특정 목적 (의료, 법률..) 을 위한 모델이라면 표현하려는 차원의 수를 최대한 줄이는 방법으로 경쟁이 가능할 수도 있겠지만,
특정 목적(코딩, 금융) 을 가지고 거대한 컴퓨팅 자원까지 가진 안트로픽 같은 기업도 이미 존재한다는 걸 생각해보면 자본의 벽은 높아져만 가는 것 아닌가 싶네요.
추가적으로 드는 의문)
결국 차원을 늘리면서 연산 속도를 유지하려면 gpu 코어 수, 메모리 대역폭 문제들이 해결되어야 하기 때문에 무한으로 늘리는 건 물리적인 제약 때문에 불가능.
(백 번 봐줘서 인간의 사고 자체가 지금 llm이 하는 것처럼 경험에 기반한 연상게임의 집합체라고 가정해도)
그 물리적인 한계에 부딪히기 전에 범용 인공지능이라는게 정말 개발이 가능할까?
논문:
https://arxiv.org/html/2505.10465v4