추론 반도체에 대한 심층 분석

파괴적 혁신 이론에 따르면 파괴적 기술은 성능이 과잉 공급된 시장을 겨냥하여 훨씬 적은 기능으로 훨씬 낮은 가격으로 시장에 새로운 접근 방식을 제공합니다.

즉, 현재 시장을 선도하는 기술은 대부분의 고객이 필요로 하는 것보다 더 많은 기능을 제공합니다.

이론적으로 추론 반도체는 여기에 완벽하게 부합합니다. 추론 반도체는 추론에 필요하지 않은 반도체를 모두 제거하여 유연성과 성능을 맞바꿉니다.

추론 시장이 빠르게 성장하고 컴퓨팅 시간이 트레이닝에서 추론으로 계속 이동함에 따라 추론 반도체 공급업체는 유리한 위치를 점하고 있습니다!

실제로 엔비디아의 혁신, 반복 주기, 수만 명의 엔지니어, 수십억 달러의 R&D 투자로 인해 스타트업이 경쟁하기는 쉽지 않습니다. 하지만 시장 기회가 워낙 크기 때문에 성공하면 큰 성공을 거둘 수 있다는 전형적인 VC의 가치 제안을 만들어냅니다.

이 분야의 기업들이 해결해야 할 세 가지 주요 과제는 다음과 같습니다:

1. 메모리 벽 및 확장성: 최첨단 모델의 메모리 요구 사항을 관리하는 방법과 이를 고려한 멀티칩 시스템을 구축하는 방법.

2. 소프트웨어 및 활용: 칩을 프로그래밍 가능하게 만드는 방법.

3. GTM 문제: 지속 가능한 시장 출시 전략(즉, 누구에게 판매할지) 파악하기.

주의할 점: 소형 맞춤형 모델이 AI 애플리케이션의 기본이 된다면, 이는 이러한 기업에게 시장을 열어주는 열쇠가 될 것이며, 가치 소품은 훨씬 더 매력적이 될 것입니다.

이 보고서의 나머지 부분에서는 추론 반도체의 환경과 기술적 접근 방식, 그리고 목표를 달성하기 위해 극복해야 할 문제에 대해 자세히 살펴봅니다. 여기에서 시장 환경을 미리 살펴보세요:

1. 추론 칩은 왜 필요하고 어떻게 작동할까요?

추론 반도체가 존재해야 하는 이유에 대한 논리는 간단합니다. 추론 반도체는 좁은 범위의 사용 사례에 특화되어 범용성을 희생하는 대신 성능 향상을 제공합니다.

전문화가 성능 향상을 가져와야 하며, 추론 시장이 충분히 크다면 해당 분야에 기업이 설립되어야 합니다.

추론 반도체의 핵심은 반도체에서 추론에 필요하지 않은 모든 것을 잘라내는 것입니다(따라서 기본적으로 행렬 곱셈기가 됩니다).

이를 어떻게 달성하는지 이해하기 위해 반도체 아키텍처에 대한 간략한 개요를 제공하겠습니다(더 자세한 분석은 Irrational Analysis의 Cerebras에 대한 훌륭한 분석을 읽어보실 수 있습니다):

반도체의 핵심은 다음과 같이 정의됩니다:

1. 원시 컴퓨팅 성능(코어 수 및 코어의 전력)

2. 유연성(칩이 실행할 수 있는 다양한 작업)

3. 메모리 용량 및 코어가 메모리에 액세스하는 방식(메모리 계층 구조)

다른 칩과 통신하는 방식, 소프트웨어가 칩과 상호 작용하는 방식 등 다른 변수들도 중요하지만, 간단히 말하자면 컴퓨팅 성능, 유연성, 메모리 관리입니다.

전통적으로 CPU는 다양한 연산을 실행할 수 있는 소수의 고성능 코어로 구성됩니다. 반면 GPU는 단순한 연산만 실행할 수 있는 방대한 양의 코어를 가지고 있습니다.

AI 반도체의 경우 메모리 계층 구조가 특히 중요합니다:

각 코어 안에는 아주 적은 양의 정보를 저장하는 레지스터가 있습니다. 예를 들어 즉시 계산할 입력 데이터를 저장할 수 있습니다. 그리고 또 다른 형태의 온칩 메모리인 SRAM이 있습니다.

온칩 메모리는 지연 시간이 가장 짧고 전력 소비가 가장 적습니다. 참고로 Google의 TPU는 온칩보다 오프칩에서 데이터에 액세스하는 데 200배 더 많은 에너지를 사용합니다. 문제는 반도체의 공간이 한정되어 있다는 것입니다! 따라서 온칩 메모리가 많을수록 더 적은 컴퓨팅을 사용할 수 있습니다.

따라서 다른 모든 데이터는 반도체 외부에 저장해야 합니다. GPU의 경우 고대역폭 메모리 또는 HBM은 가장 낮은 오프칩 메모리 지연 시간을 제공하기 때문에 수요가 높습니다. 여기서 Nvidia GPU가 메모리에 액세스하는 방법을 볼 수 있습니다(SM은 컴퓨팅 코어입니다):

복잡할 수 있지만 중요한 내용입니다. 정말 중요합니다!

GPU는 학습과 추론 모두에 사용해야 합니다.

훈련은 추론보다 더 복잡한 경향이 있습니다. 신경망 훈련의 목표는 주어진 데이터 세트(모델링하려는 실제 현상과 유사한)를 가장 정확하게 표현하는 것입니다. 이를 위해서는 데이터의 포워드 패싱과 백워드 패싱, 모델의 매개변수에 대한 미분 계산, 모델 가중치의 지속적인 업데이트가 필요합니다.

이러한 다양한 연산에는 더 많은 유연성이 필요합니다.

반면 추론은 행렬 곱셈을 중심으로 구축된 보다 단순한 워크플로우입니다.

회로 수준에서 이는 추론 반도체에 많은 곱셈 및 덧셈 기능이 필요하다는 것을 의미합니다(예: 융합 곱셈-가산 회로). 많은 추론 칩 접근 방식은 이러한 회로의 양을 최대화하기 위해 제어 로직(회로에 명령을 내리는 반도체의 일부)을 잘라냅니다. 즉, 유연성은 훨씬 떨어지지만 추론 능력은 훨씬 더 뛰어납니다.

퓨리오사AI는 로켓을 만들 때 로켓을 단순화하고 불필요한 비용을 최대한 줄임으로써 로켓을 만드는 것처럼, 추론과 관련이 없는 모든 것을 배제하고 첫 번째 ...