프리미엄
예측대회
투자분석
아카데미
커뮤니티
로그인Valley AI 시작하기시작하기
Valley Space인기
Vera Rubin Decoded Pt. 4 | 랙 조립 — 트레이, PCB, 쿨링
⚡️Transurfing VolatilityIndustry Insights

Vera Rubin Decoded Pt. 4 | 랙 조립 — 트레이, PCB, 쿨링

avatar
s4ndwalker
2026.05.26조회수 54회
part4.png

시리즈 안내 ⎯ Series Map

  • Part 1: 플랫폼 개요와 아키텍처 맵 — Blackwell → Rubin 플랫폼의 핵심과 주요 사양

  • Part 2: Rubin GPU 엔지니어링 심층 분석 — process node, SM, HBM4, NVLink-C2C, 패키지, CPX와 Groq 3 LPX

  • Part 3: Vera CPU와 네트워킹 실리콘 제품군 — Vera CPU, NVLink 6 Switch, ConnectX-9, BlueField-4, Spectrum-6

  • Part 4 (현재 글): 랙 조립 — 트레이, PCB, 쿨링 — HGX와 NVL72, 컴퓨트 트레이 모듈, cableless 미드플레인, PCB 업그레이드, 액체 냉각

  • Part 5: 랙 전력과 네트워킹 fabric — 전력 공급, HVDC, tray ↔ rack 배선, scale-up NVLink 6, scale-out InfiniBand와 Ethernet

  • Part 6: 공급망 마스터 레퍼런스 — sub-system별 공급사 정리


1. 칩에서 Tray, 그리고 Rack까지 — 조립

개별 칩에 대한 설명이 끝났으니, 다음 질문은 그 칩들을 어떻게 조립하느냐다. 6개의 칩은 박스에 흩어진 상태로 출하되지 않는다 — 체계화된 어셈블리 구조 안으로 통합되어 출하된다.

체계: chip → module → compute tray → rack → SuperPOD

  • Chip — 개별 실리콘 (Rubin GPU, Vera CPU 등).

  • Module — 하나 또는 여러 개의 칩과 그에 부속된 부품 (메모리 소켓, VRM, 커넥터 등)을 담은 소형 PCB.

  • Compute tray — 여러 module을 midplane을 통해 하나로 연결한 1U 섀시.

  • Rack — compute tray 18개 + NVLink switch tray 9개 + power shelf 4개를 담은 19인치 캐비닛.

  • SuperPOD — Spectrum-6 Ethernet으로 연결된 여러 개의 랙 (섹션 8에서 다룬다).

이 섹션에서는 compute tray 내부의 6가지 module 종류, 그들이 서로 어떻게 연결되고 냉각·전원을 공급받는지, 그리고 이 tray 18개가 어떻게 하나의 NVL72 rack으로 결합되는지를 차례대로 따라간다.


(1) VR NVL72 랙 한 대의 해부

Nvidia가 헤드라인으로 내세우는 수치 (72 GPU 등)는 단순한 산수의 결과다.

Rack anatomy

"Vera Rubin Superchip"은 단일 Strata module 위에 NVLink-C2C로 묶인 Vera CPU 1개 + Rubin GPU 2개다. tray당 superchip 2개, rack당 tray 18개 — 72-GPU 수치 뒤의 산수는 여기서 나온다.


원래의 명명은 사실 "VR NVL144"였다 — Nvidia가 한동안 GPU를 die 단위 (Rubin 패키지당 reticle-size die 2개 × 72 package = 144 die)로 세었기 때문이다. 2025년 12월에 package 단위로 환산해 "NVL72"로 되돌린 이후로, 그것이 현재까지 통용되는 표기다.

(2) HGX Rubin NVL8 — 대체 form factor

Hgx Rubin Nvl8 Form Factor

NVL72 tray 내부로 본격적으로 들어가기 전에 짚고 갈 점은, Rubin이 두 가지 배포 form factor로 출하된다는 사실이다. DGX (turnkey integrated appliance)와 HGX (OEM이 커스터마이즈하는 모듈형 GPU tray).


이 파트의 본문은 rack-scale VR NVL72 — DGX 스타일 제품 — 를 중심으로 다룬다. 대안 form factor는 HGX Rubin NVL8으로, GB300 → HGX B300 계보를 잇는 섀시-스케일 서버 (8 GPU)다. § 3부터는 NVL72에 집중하며, HGX는 본 섹션 안에서만 등장한다.

1) DGX vs HGX — 두 가지 설계 철학

DGX와 HGX는 하드웨어 차원에서 정반대 설계 철학을 구현한 두 모델이다. Nvidia GPU 제품이 둘 중 어느 모델을 기반으로 설계되었는지에 따라, 그 제품에서 허용되는 커스터마이징의 범위가 모두 결정된다.


DGX — Turnkey AI Appliance

Vera Rubin Compute Tray — Rubin GPU 4개, Vera CPU 2개, BlueField-4 DPU 1개, ConnectX-9 NIC 8개를 가진 200 PF NVL72 빌딩 블록
  • 고정된, 완전 통합 노드: 사전 정의된 GPU 수, NVLink 토폴로지, CPU, 메모리, 네트워킹, 소프트웨어 스택까지 — 전부 Nvidia가 단일 시스템으로 튜닝해 묶어 둔 구성.

  • 벤더 관리형 통합: Nvidia가 전체 하드웨어 + 소프트웨어 스택을 직접 정의하고, DGX 파트너는 최소한의 구성 선택권만 가진 채 "있는 그대로"로 출하된다.

  • 목적: 고객 쪽의 통합 마찰 (integration friction)을 최소화하는 것. 부품 더미가 아니라 곧바로 동작하는 AI 슈퍼컴퓨터를 산다는 발상이다.

  • Rubin 세대 사례: DGX Vera Rubin NVL72 랙, 그리고 그 랙들을 모아 구성한 DGX SuperPOD.


HGX — 모듈형 GPU 빌딩 블록

Dgx Vs Hgx Design Philosophy
  • 레퍼런스 GPU tray + 레퍼런스 디자인: Nvidia가 모듈형 GPU tray (SXM Rubin GPU 4개 또는 8개 구성)와 레퍼런스 아키텍처를 출하하면, OEM이 그 tray를 자체 섀시 안에 통합한다.

  • OEM과 클라우드 업체들의 커스터마이징: OEM (Dell, HPE, Lenovo, Supermicro)이 동일한 HGX GPU tray를 중심에 두고 자체 CPU (AMD 또는 Intel), RAM, 스토리지, 네트워크 fabric (Spectrum-X, InfiniBand, 또는 3rd-party), 관리 스택을 자유롭게 선택한다.

  • 목표: Nvidia 브랜드 어플라이언스 형태가 아니라, 커스텀 설계 서버와 hyperscaler 랙 안에 Nvidia GPU를 확장 통합하는 것.

  • Rubin 세대 사례: HGX Rubin NVL8 서버 (이 섹션의 주제).


한 줄 요약

  • DGX의 입장: "이건 완성된 Nvidia 통합 AI 노드다. 설계된 그대로 가져가라."

  • HGX의 입장: "여기 표준 GPU tray를 줄 테니, 너의 시스템을 그 주위에 직접 구성하라."

2) Form-factor 비교 — Tray 수준 vs Rack 수준

가장 의미 있는 1:1 비교는 tray 수준에서 성립한다 — HGX Rubin NVL8 (완전한 섀시) vs VR NVL72 compute tray (랙 안의 1U tray 한 개). 맨 오른쪽 열은 참조용으로 전체 NVL72 rack을 함께 보여 준다.

HGX NVL8 vs VR NVL72
  • HGX NVL8과 VR NVL72 compute tray는 물리적 스케일이 비슷한 자리에 위치 (서버 섀시 ≈ 1U tray)하지만, 커스터마이즈 스펙트럼의 양 극단에 자리한다.

  • HGX NVL8은 그 자체로 배포 가능한 단위다. 반면 NVL72 compute tray는 더 큰 rack-scale 설계의 한 조각에 불과하며, standalone으로는 동작하지 않는다.

  • 따라서 의미 있는 배포 수준 비교는 HGX NVL8 ↔ NVL72 rack, 의미 있는 아키텍처 수준 비교는 HGX NVL8 ↔ NVL72 compute tray 쌍에서 성립한다.

3) NVL72가 더 빠른 NIC 없이 GPU당 1.6 T에 도달하는 방법

  • NVL72는 1.6T NIC 실리콘을 실제로 사용하지 않는다.

  • 대신, GPU당 800G CX-9 패키지 2개가 모두 PCIe Gen6 lane을 통해 짝을 이루는 Vera CPU에 연결된다.

  • 그 결과 논리적으로 "1.6T NIC"이 구현된다 — HGX와 동일한 CX-9 실리콘을 GPU당 두 배의 밀도로 배치한 셈이다.

4) 도입 패턴 — Neocloud vs Hyperscaler

어떤 기업이 어떤 form factor를 택하느냐에는 명확한 방향성이 있다. 절대 규칙은 아니지만 분명한 경향이 존재한다.


Neocloud → DGX (VR NVL72) 쪽으로 기울어진다

  • 플레이어: CoreWeave, Nebius, Lambda, Crusoe, TensorWave.

  • 비즈니스 모델: GPU-as-a-Service — "GPU 임대업"으로서 배포 속도와 GPU 활용도의 최적화가 핵심.

  • 왜 DGX인가: 사전 최적화된 Nvidia 소프트웨어 스택과 turnkey rack-scale 시스템이 통합에 드는 시간을 크게 줄여 준다. Neocloud는 커스텀 서버 엔지니어링 리스크를 떠안지 않고도 수천 개의 GPU를 빠르게 띄우는 것이 우선이다.

  • 수요 패턴: GPU 수, TCO, uptime이 커스텀 토폴로지보다 더 중요하다. 표준화된 DGX 노드는 "그냥 작동한다"는 안정성이 자산이 된다.


Hyperscaler → HGX 쪽으로 기울어진다

  • 플레이어: AWS, GCP, Microsoft Azure, Meta (실무 차원에서는 xAI도 자사 fleet 일부에 사용 중).

  • 비즈니스 모델: 대규모의 자체 커스터마이즈된 데이터센터 fabric. 내부 팀들이 커스텀 서버, 섀시, 네트워킹, 랙 설계를 직접 엔지니어링한다.

  • 왜 HGX인가: Rubin GPU tray를 자체 선택한 CPU (in-house ARM, AMD, Intel)·펌웨어·telemetry·NIC·전력 공급·오케스트레이션과 자유롭게 페어링할 수 있게 해 준다. HGX tray는 기존 커스텀 랙 아키텍처에 자연스럽게 끼워 넣을 수 있고, Nvidia 브랜드 박스를 강제하지 않는다.

  • 수요 패턴: 수백만 대의 서버에 걸친 유연성, 규모, 동질적 통합이 out-of-the-box turnkey 속도보다 우선시된다.


혼합 배포도 흔하다

  • 일부 neocloud는 트레이닝 tier에는 DGX 랙 (빠른 배포, 높은 신뢰성), 인퍼런스 tier에는 HGX (저렴하고 커스터마이즈 가능)로 나눠 운영한다.

  • 일부 hyperscaler는 fleet 대부분을 HGX로 유지하면서, 내부 AI 랩이나 전략 고객 응대용으로만 소수의 DGX 랙을 구매하기도 한다.

5) HGX가 NVL72와 함께 여전히 존재하는 이유

  • HGX는 rack-scale NVL72가 과한 환경 — 엔터프라이즈 클러스터, 혼합 워크로드 서버, 랩-스케일 인프라 — 즉, 더 작고 유연한 배포가 필요한 영역을 노린다. 자사 섀시에 Rubin GPU를 통합하려는 hyperscaler도 여기 포함된다.

  • HGX는 single-plane, 8-rail 토폴로지를 따른다 — 1-plane 공식의 한도 (93,312 GPU)에 결국 부딪히게 된다. 사실 HGX 클러스터는 애초에 그보다 훨씬 작은 규모로 빌드되는 경향이 있다 — 8-GPU 섀시 단위 입도로 거대한 클러스터를 ...

회원가입만 해도
이 글을 무료로 읽을 수 있어요.

7일 무료 체험 시작하기
이미 계정이 있으신가요?로그인하기
댓글 0개
avatar
s4ndwalker
구독자 67명구독중 13명
내러티브와 데이터로 투자/트레이드 전략을 구현합니다.
아직 작성된 댓글이 없습니다.
Industry Insights 카테고리의 다른글

Vera Rubin Decoded Pt. 3 | Vera CPU와 네트워킹 실리콘 제품군

시리즈 안내 ⎯ Series Map Part 1: 플랫폼 개요와 아키텍처 맵 — Blackwell → Rubin 플랫폼의 핵심과 주요 사양 Part 2: Rubin GPU 엔지니어링 심층 분석 — process node, SM, HBM4, NVLink-C2C, 패키지, CPX와 Groq 3 LPX Part 3 (현재 글): Vera CPU와 네트워킹 실리콘 제품군 — Vera CPU, NVLink 6 Switch, ConnectX-9, BlueField-4, Spectrum-6 Part 4: 랙 조립 — 트레이, PCB, 쿨링 — HGX와 NVL72, 컴퓨트 트레이 모듈, cableless 미드플레인, PCB 업그레이드, 액체 냉각 Part 5: 랙 전력과 네트워킹 fabric — 전력 공급, HVDC, tray ↔ rack 배선, scale-up NVLink 6, scale-out InfiniBand와 Ethernet Part 6: 공급망 마스터 레퍼런스 — sub-system별 공급사 정리 4. Vera Vera는 Nvidia의 2세대 자체 ARM 기반 CPU로, Blackwell 플랫폼의 Grace를 잇는다. 설계 의도가 바뀌었다. Grace는 GPU 옆에 자리잡은 host CPU였다. Vera는 data engine으로 자리매김한다 — 데이터를 옮기고, 워크로드를 오케스트레이션하며, GPU의 처리량에 맞는 속도로 control flow를 처리하여 *Rubin GPU에 데이터가 효율적으로 전달되도록 조율하는 것이 역할이다. Rubin급 GPU 속도에서는 표준 서버 CPU가 병목이 된다. Vera는 그 병목을 제거하기 위해 특별히 설계됐다. Grace → Vera 한눈에 보기 변화는 네 개의 엔지니어링 레이어로 묶인다 — 무엇이 실행되는지, 무엇이 그것을 저장·공급하는지, 무엇이 그것을 칩 안팎으로 옮기는지, 이 모든 과정이 어떤 실리콘 위에서 작동하는지. 아래 표들은 각각 원시 사양의 변화 (delta)와 엔지니어링 결과를 짝지어 보여 준다 — Vera 섹션의 나머지를 읽을 때 표준 레퍼런스다. [연산 — Cores · Threads · SIMD] [캐시 & 메모리 서브시스템] [인터커넥트 & 표준] [실리콘] (1) Olympus Core와 Spatial Multithreading Vera는 Grace에서 사용된 ARM의 기성 Neoverse V2 코어에서 벗어나, Nvidia의 custom ARM 호환 Olympus 코어로 옮겨간다 — Nvidia 자체 CPU 코어 설계의 귀환이다. Olympus는 wide·deep microarchitecture로, branch prediction, prefetching, load-store 성능이 향상됐다. 일반 enterprise compute가 아닌, control-heavy하고 data movement가 많은 워크로드 (현대 GPU에 데이터를 공급하는 실제 병목 프로파일)에 맞춰 최적화됐다. ARM v9.2 완전 호환 — 기존 ARM Linux 배포판, 프레임워크, 오케스트레이션 소프트웨어가 수정 없이 실행된다. Spatial Multithreading이란 (그리고 SMT와 어떻게 다른가) 전통적인 Simultaneous Multi-Threading (SMT — Intel에서는 "Hyper-Threading", AMD Zen 코어에서 사용)은 코어의 실행 자원을 time-slicing해 두 스레드가 단일 코어를 공유하도록 한다. 처리량은 늘지만 스레드별 지연이 예측 불가능해지고 보안상 side-channel 공격 가능성이 생긴다. Vera의 Spatial Multithreading은 자원을 time-slicing하는 대신 물리적으로 분할하여 코어당 두 스레드를 실행한다. 결과: 88코어에 걸친 176 하드웨어 스레드. 스레드별 지연이 예측 가능하고, 스레드 간 격리가 강화된다. 한 테넌트의 워크로드가 다른 테넌트의 응답 시간에 영향을 주지 않아야 하는 multi-tenant AI factory에서는 결정적인 특성이다. 다이 레벨 yield 트릭 Nvidia는 실제로 die에 91개 코어를 인쇄하지만 88개만 활성화된 채로 출하한다. 3개의 redundant 코어는 순전히 제조 yield를 개선하기 위한 것이다 — 91개 중 어느 하나에 결함이 있어도 비활성화 처리하고 full 88-core 부품으로 출하한다. GPU 쪽의 floor-sweeping (제조 결함이 있는 일부 블록을 비활성화해 수율을 높이고, 이를 하위 모델로 판매하는 방식)과 동일한 발상이다. (2) 메모리 서브시스템 — SOCAMM + LPDDR5X Vera의 메모리 서브시스템은 Grace 대비 용량 3배·대역폭 2.4배로 재설계됐다. LPDDR5X (Low-Power DDR5X)는 최신 스마트폰·노트북에서 쓰이는 메모리 타입으로, 표준 서버 DDR5 대비 GB/s당 전력 효율이 훨씬 좋다. 대신 CPU에 가깝게 납땜되거나 모듈로 부착된다. Vera는 SOCAMM 모듈을 사용한다 — Small Outline Compression Attached Memory Module의 약자로, Nvidia가 데이터센터의 신뢰성·교체성 요구에 맞춰 설계한 LPDDR5X form factor다. Vera 소켓당 8개 SOCAMM 모듈, 총 1.5 TB @ 9,600 MT/s. 1024-bit 메모리 버스 (Grace의 512-bit의 두 배)가, 클럭을 합리적인 수준으로 유지하면서도 총 대역폭을 1.2 TB/s에 도달하게 만드는 메커니즘이다. 메모리 대역폭이 이렇게까지 중요한 이유 Rubin GPU 쪽 HBM 대역폭이 22 TB/s에 이르는 상황에서, 기존 CPU 쪽은 상대적으로 얇아 보였다. Vera의 1.2 TB/s LPDDR5X는 NVLink-C2C를 통해 애플리케이션에 노출되는 통합 메모리 풀의 두 번째 계층이다 (Part 2의 Rubin 섹션 (4) 참고). Rubin의 288 GB HBM4 용량을 초과한 KV cache는 어딘가 빠른 곳에 도달해야 한다 — Vera의 LPDDR5X가 바로 그 착륙 지점이다. Vera의 메모리 대역폭이 낮았다면 offload 경로가 GPU 연산을 멈추게 만들 것이다. (3) Scalable Coherency Fabric (SCF) — On-die 데이터 이동 2세대 Scalable Coherency Fabric은 88개 Olympus 코어 모두를 공유 L3 cache와 memory controller로 연결하는 on-chip 네트워크다. 단일 monolithic compute die 위에 구축됐다 — Nvidia가 compute 측에서는 chiplet 경계를 의도적으로 피했다. 이유: chiplet 경계는 지연과 대역폭 편차를 더한다. line rate에서 결정론적 데이터 이동이 본업인 CPU에게 이 편차는 받아들일 수 없다. 결과: SCF는 부하 상황에서도 피크 메모리 대역폭의 90% 이상을 유지한다. 즉, 소프트웨어가 헤드라인 수치인 1.2 TB/s에 근접한 값을 실제로 보게 된다는 뜻이다. Vera는 memory controller와 I/O는 chiplet으로 disaggregate하지만 (Rubin과 유사), compute die는 monolithic으로 유지한다는 점에 주목할 만하다. 이 분할은 엔지니어링 우선순위를 반영한다 — 독립적인 yield 관리가 도움 되는 부분은 chiplet 단위로 세분화하고, 결정론적 지연 (compute die 내부 연산·데이터 이동의 latency가 매번 일정하게 예측 가능해야 한다. 그래서 compute block은 chiplet보다 monolithic 구조가 유리하다.)이 필요한 부분은 monolithic으로 둔다. (4) I/O — NVLink-C2C, PCIe Gen6, CXL 3.1 Vera는 host 측 모든 I/O 인터페이스를 2배로 올리거나, 새로 도입했다. Grace 대비 비교는 다음과 같다: NVLink-C2C 행의 "Coherent"는 CPU와 GPU가 명시적 동기화 없이 동일한 메모리 내용을 자동 동기화를 통해 접근 가능하다는 의미다 (Part 2의 Rubin 섹션 (4)에서 자세히 다룬다). (5) Vera Rubin Superchip Vera는 일반적인 경우 단일 CPU로 판매되지 않는다. 기본 배포 단위는 Vera Rubin Superchip이다 — Vera CPU 1개 + Rubin GPU 2개를 단일 host 마더보드 모듈 위에 긴밀히 결합한 구성이다. CPU와 두 GPU는 NVLink-C2C를 통해 coherent 메모리 도메인 안에서 연결된다. 이것이 NVL72 랙의 기본 컴퓨트 빌딩 블록이다 — 각 compute tray가 superchip 2개를 담고, 랙은 18 tray를 담는다. Superchip 한 개당 합계: 100 PFLOPS NVFP4 (Rubin GPU 2개 합산), 2 TB의 fast memory, 88 Olympus 코어, 모듈 위 전체 실리콘의 트랜지스터 합 ~6 T. Vera는 agentic 처리, 분석, 클라우드, 스토리지, 인프라 서비스용으로 standalone 배포도 가능하지만, 랙 단위 플랫폼 thesis를 끌고 가는 것은 superchip 구성이다. (6) Summary — Vera, 한 번에 읽기 사양별 전체 변화 (와 엔지니어링적 귀결)는 앞부분 "Grace → Vera 한눈에 보기" 표에 정리되어 있다. 이 섹션은 그 배경에 깔린 thesis만 압축한다. 가장 깔끔한 해석: Vera CPU는 Rubin GPU에 데이터를 공급하는 데 있어 제약 요인을 최소화하는데 목적을 둔다. 모든 사양 업그레이드 — 대역폭, 용량, coherent link 폭, custom 코어 설계 — 은 연결되어있는 GPU의 처리량에 맞춰 보정된 결과다. 5. NVLink 6 Switch NVLink 6 Switch는 Vera Rubin의 scale-up fabric 칩이다 — 랙 단위 NVLink switch tray 안에 들어가, 72개의 Rubin GPU가 마치 단일 가속기처럼 서로 네트워킹 할 수 있게 만드는 실리콘이다. "Scale-up" = 여러 칩으로 더 큰 가상 가속기를 (랙 내에서) 구축하는 것. "Scale-out" = 데이터센터 안의 여러 랙을 연결하는 것 (ConnectX-9 + Spectrum-6가 별도로 담당). NVLink Switch는 랙에 대해, multi-core 칩의 on-die ring/mesh와 같은 위치 — all-to-all 인터커넥트다. (1) "동일한 Switch 칩, 두 배의 랙" 트릭 변화는 세 개 항목으로 나뉜다 — switch 실리콘 내부에서 무엇이 바뀌었는지, tray와 랙이 그 실리콘을 어떻게 합산되는지, switch가 순수 스위칭을 넘어 추가로 어떤 능력을 갖췄는지. 칩 수준 실리콘 Tray + Rack 합산 In-Network Compute (SHARP) 핵심 설계 선택은 칩 수준의 28.8 TB/s 스위칭 대역폭을 NVLink 5와 NVLink 6 사이에서 일정하게 유지했다는 것이다. 칩 수준 대역폭을 두 배로 늘리려면 더 큰 die 혹은 multi-die switch가 필요했을 텐데, 둘 다 설계 복잡도 비용이 크다. 대신 Nvidia는 칩 처리량은 그대로 두고, 링크당 SerDes 속도를 두 배로 (bidirectional signaling을 통해) 올리고 포트 수는 반으로 줄였다. 그 후 랙 단위 2배 스케일링은 tray나 랙 form factor를 바꾸지 않고서, tray당 칩 수를 두 배 (2 → 4) 늘리는 방식으로 달성됐다. (2) Bidirectional SerDes — NVLink 6가 링크당 속도를 두 배로 만드는 방법 헤드라인 숫자 자체는 단순하다 — NVLink 5는 전기 lane당 224G를 전달했고, NVLink 6는 lane당 448G를 전달한다. lane당 2배 점프다. 흥미로운 질문은 어떻게 Nvidia가 modulation rate나 baud rate를 두 배로 올리지 않고 이 수치에 도달했느냐다 — 둘 중 무엇을 건드렸어도 새로운 SerDes 실리콘과 더 빡빡한 signal integrity 마진이 필요했을 것이다. 답은 같은 구리 wire pair 위에서의 동시다발적 bidirectional signaling이다. 왜 단순한 "케이블 수를 2배로 늘리기"가 답이 아니었나 NVLink 대역폭을 두 배로 만드는 순진한 방법은 기존 200G SerDes를 그대로 두고 backplane 위의 구리 케이블 수만 두 배로 늘리는 것이다. 두 가지 이유로 그 길은 통하지 않는다. Blackwell NVL72 backplane은 이미 ~5,000개의 구리 케이블을 운반한다. 이를 ~10,000개로 두 배로 늘리는 일은 물리적으로 보면 어려운 과제고, GB200/GB300에서 이미 드러난 신뢰성 실패 모드를 훨씬 더 가속한다. 대안은 랙을 더 넓게 만드는 것 (AMD가 MI400 Helios 랙에서 택한 방향)인데, 이 경우 PCB trace 길이가 길어져 고속에서의 signal integrity가 저하된다. 그래서 Nvidia는 케이블 수는 그대로 두고, 대신 SerDes 속도를 밀어붙였다. "Bidirectional"이 실제로 의미하는 것 NVLink 전기 lane은 하나의 differential pair (DP) (동일한 크기에 극성이 반대인 신호를 운반하는 두 개의 도체)다. 과거의 NVLink lane pair는 한 방향씩 신호를 운반한다. Bidirectional SerDes는 동일한 pair 위에서 양 방향을 동시에 실행한다. 여기서 발생한...
Industry Insights
2026. 05. 26
2
0
88
Vera Rubin Decoded Pt. 3 | Vera CPU와 네트워킹 실리콘 제품군

Vera Rubin Decoded Pt. 2 | Rubin GPU 엔지니어링 심층 분석

시리즈 안내 ⎯ Series Map Part 1: 플랫폼 개요와 아키텍처 맵 — Blackwell → Rubin 플랫폼의 핵심과 주요 사양 Part 2 (현재 글): Rubin GPU 엔지니어링 심층 분석 — process node, SM, HBM4, NVLink-C2C, 패키지, CPX와 Groq 3 LPX Part 3: Vera CPU와 네트워킹 실리콘 제품군 — Vera CPU, NVLink 6 Switch, ConnectX-9, BlueField-4, Spectrum-6 Part 4: 랙 조립 — 트레이, PCB, 쿨링 — HGX와 NVL72, 컴퓨트 트레이 모듈, cableless 미드플레인, PCB 업그레이드, 액체 냉각 Part 5: 랙 전력과 네트워킹 fabric — 전력 공급, HVDC, tray ↔ rack 배선, scale-up NVLink 6, scale-out InfiniBand와 Ethernet Part 6: 공급망 마스터 레퍼런스 — sub-system별 공급사 정리 3. Rubin GPU — 엔지니어링 심층 분석 Blackwell 대비 Rubin의 기본 구조는 동일하게 유지된다 — reticle-sized logic die 두 개가 나란히 배치되고, 각각 HBM 스택으로 둘러싸여 있다. ("Reticle-sized"란 각 다이가 현재 photolithography 장비가 단일 노출 (single exposure)로 인쇄할 수 있는 최대 크기, 약 800 mm²라는 뜻이다. "Die"는 패키징되기 전 칩의 회로를 담은 실제 실리콘 정사각형을 가리킨다.) 8개의 HBM 스택은 두 다이와 함께 동일한 패키지에 배치된다. 변화는 다이 내부와 패키지 주변에서 일어난다. 35 PFLOPS dense FP4라는 수치 (GB200 대비 3.5배)는 세 가지 요인이 복합적으로 작용한 결과다. SM (Streaming Multiprocessor) 수: 160 → 224. SM은 Nvidia GPU의 기본 빌딩 블록으로, CUDA Core (범용 연산 유닛), Tensor Core (행렬 연산 유닛), 레지스터, shared memory를 담은 소형 프로세서다. 현대 GPU는 본질적으로 수백 개의 SM이 병렬로 실행되는 구조다. 5세대 Tensor Core의 폭이 SM당 clock당 32,768 FP4 MAC으로 두 배 늘어났다. MAC은 multiply-accumulate 연산 (a × b + c)으로, 신경망 수학에서 사용되는 행렬 곱셈의 핵심 연산이다. 클럭: 1.90 GHz → 2.38 GHz (+25%). GPU의 내부 사이클 속도로, 클럭이 빠를수록 실리콘 단위당 초당 더 많은 연산을 수행할 수 있다. 해당 문서 내 설명은 SM에서 시작해 메모리, I/O, 정밀도·sparsity, 전력, 마지막으로 패키지 순서로 진행된다. (1) Process Node와 Die 구조 Rubin은 TSMC의 3nm 공정을 사용하며, I/O를 chiplet 단위로 분산한다. 동시에 Blackwell의 2-die + 8-HBM-stack 레이아웃은 그대로 유지된다. "chiplet 단위로 분산된다는 것"은 하나의 거대한 monolithic die에 통합하는 대신, 칩을 여러 작은 조각 (chiplet)으로 나눈 후 동일한 패키지에 결합하는 방식이다. "I/O" (input/output)는 칩에서 외부 세계와 통신을 담당하는 부분으로, 주로 다른 GPU와의 NVLink, CPU와의 NVLink-C2C를 가리킨다. Compute die는 reticle-size를 유지하면서, I/O 대신 더 많은 SM과 더 넓은 Tensor Core에 면적을 할당한다. NVLink-C2C와 NVLink 6 I/O 블록은 logic die와 독립적으로 설계 및 수율 관리가 가능한 별도의 chiplet으로 분리된다. ("수율 관리"란 manufacturing yield를 의미한다 — 칩을 더 작은 조각들로 나누면 제조 결함이 발생할 시 monolithic die 전체가 아닌 해당 결함 부분만 오작동하기에, 전체 실리콘 중 사용 가능한 비율이 높아진다.) 트랜지스터 수는 208 B (Blackwell) → 336 B (Rubin)로 +60% 증가한다. 더 커진 logic die, 새로운 I/O chiplet, 두 배가 된 Tensor Core가 합산된 결과다. (2) 연산: SM, 5세대 Tensor Core, SFU SM당 Tensor Core의 변화가 FP4·FP8 스케일링을 주도한다. Tensor Core의 폭은 각 SM이 clock cycle당 수행할 수 있는 multiply-accumulate 연산 횟수를 결정한다. 특히, Tensor Core 폭의 2배 증가는 NVFP4와 FP8에만 적용된다. 더 넓은 포맷인 BF16과 TF32는 Blackwell과 동일하게 유지되어, FP16 성능은 Blackwell 대비 1.6배 상승에 그친다. BF16 (bfloat16)과 TF32 (Nvidia의 TensorFloat-32)는 각각 16비트·19비트 포맷으로, 일반적으로 AI 모델 훈련에 사용된다 — FP16보다 더 넓은 수치 범위를 제공하는 대신 FP8/FP4보다는 폭이 넓다. 이 아키텍처 결정은 대부분의 훈련 및 추론 워크로드가 TF32와 BF16에서 FP8·FP4로 옮겨갈 것이라는 Nvidia의 판단을 반영한다. Special Function Units (SFU). SFU는 각 SM 내부에서 "transcendental" 연산 (지수, 로그, sine, 역수 등 기본 multiply/add보다 훨씬 복잡한 연산)을 처리하는 소형 수학 유닛이다. Rubin은 SFU 경로를 확장한다. Softmax 가속 (SM당 clock당 EX2 연산으로 측정 — EX2는 2^x, softmax가 의존하는 지수 연산을 의미)이 Blackwell의 16에서 Rubin의 32 (FP32) / 64 (FP16) 로 상승한다. transformer 모델의 attention 블록을 지배하는 exp/softmax 연산이 2~4배 향상되는 셈이다. (Softmax는 임의의 숫자 벡터를 확률 분포로 변환하고, "attention" 메커니즘 (다음 토큰을 예측하기 위해 모델이 이전 토큰 중 어느 것이 중요한지 가중치를 매긴다)은 inference당 수십억 번 softmax를 호출한다.) 이 SFU 확장이 없었다면 attention 커널이 새로운 FP4 처리량의 병목이 되었을 것이다. AI + 과학 컴퓨팅의 융합. Rubin은 FP32/FP64 처리량을 AI 스타일 행렬 워크로드 쪽으로 재조정한다. FP64는 전통적인 과학 시뮬레이션 코드 (기후, 유체역학, 계산물리학)에서 사용되는 64비트 double-precision 포맷이다. "Vector" 연산은 배열 원소별 (element-wise) 연산이고, "Matrix" 연산은 대규모 행렬-행렬 곱셈으로, Tensor Core가 가속하는 대상이다. FP64 vector 처리량은 Blackwell 대비 다소 감소한다. Nvidia가 해당 실리콘 면적을 FP4·FP8과 Tensor Core용으로 재할당했기 때문이다. 행렬 연산에서 FP64급 정확도가 필요한 과학 코드는 "Tensor Core matrix emulation"을 거치도록 설계되어 있다. 여러 차례의 저정밀 Tensor Core pass를 실행하고, 오차 보정 규정을 활용해 결과를 결합하여 FP64 결과를 만들어 낸다. Ozaki 알고리즘이 그러한 기법 중 하나로, 저정밀 하드웨어에서 FP64에 준하는 정확도를 제공한다. Nvidia의 cuBLAS 라이브러리 (표준 선형대수 커널 라이브러리)가 이 에뮬레이션을 기본 탑재한다. FP64 vector는 여전히 연산 처리량보다 메모리 대역폭에 성능이 좌우되는 코드들에서 의미가 있다. (3) 메모리 서브시스템 — HBM4 Rubin은 HBM3E (Blackwell에서 사용된 세대)에서 HBM4로 전환한다. HBM3E 대비 스택당 bus width가 두 배가 됐다. "Bus width"는 HBM 스택을 GPU에 연결하는 병렬 wire의 개수로, wire가 많을수록 clock당 더 많은 데이터를 옮길 수 있다. Pin speed: 10.8 GT/s (gigatransfers per second — 각 wire가 토글되는 속도). 총 대역폭 목표: 22 TB/s로 Blackwell의 8 TB/s 대비 약 2.75~2.8배. 용량은 GB300과 동일한 288 GB로 유지. 처음 GTC 2025에서는 13 TB/s로 발표되었으나, 이후 Nvidia가 목표를 상향 조정했다. 새로운 memory controller (HBM 읽기·쓰기를 조율하는 on-die 로직) 및 더 긴밀한 compute-memory 통합과 짝지어, 부하 상황에서도 SM 파이프라인에 데이터가 효율적으로 제공된다. 대역폭 업그레이드가 강제된 이유. 원래의 13 TB/s 사양 하에서는 AMD의 MI450이 Rubin보다 더 높은 메모리 대역폭으로 출하될 상황이었다. 앞서 나가기 위해 Nvidia는 JEDEC 표준 이상의 HBM4 pin speed를 요구했다. JEDEC (Joint Electron Device Engineering Council)은 공식 메모리 사양을 정하는 산업 표준 기관으로, 모든 DRAM 공급사는 JEDEC 표준에 맞춰 설계한다. Nvidia는 사실상 SK Hynix, Samsung, Micron에게 공식 사양 이상으로 오버클럭하도록 요구하고 있으며, 메모리 공급사들은 표준이 보장하지 않는 속도로 부품을 검증해야 하는 상황이다. HBM4 공급사 Pin Speed 동향 Rubin 세대에서 3사 HBM 경쟁은 명확한 순위가 매겨진다. SK Hynix — 현재 HBM4 pin speed 검증에서 선두. 목표치인 10.8 GT/s에서 첫 Rubin-grade HBM4를 출하할 것으로 예상된다. Samsung — SK Hynix를 바짝 뒤쫓는 중이며 Nvidia에서 검증 단계. Rubin 양산이 본격화되면 second-source 공급사 역할을 할 것으로 보인다. Micron — HBM4 검증에서 상당히 뒤처졌으며 Rubin HBM4에서 사실상 배제되었다. HBM이 logic die 다음으로 GPU 패키지에서 가장 비싼 단일 부품이라는 점에서 의미 있는 상업적 타격이다. 실제로 의미하는 바. 초기 Rubin 출하분은 22 TB/s 헤드라인이 아닌 ~20 TB/s에 가깝게 떨어질 가능성이 높다. 공급사들이 양산 물량에서 풀 10.8 GT/s pin speed를 유지하기 어렵기 때문이다. Pin speed 검증이 새로운 병목이다. JEDEC 사양을 초과해 부품을 검증해 달라고 공급사에 요구한다는 것은, 수율과 binning ratio가 산업 표준이 아닌 Nvidia 전용 기준이 된다는 의미이기도 하다. 공급 연속성에 실질적인 리스크다. "Micron이 배제됐다"는 결과는 AI 하드웨어 공급망 전반에 파급된다 — 2026년 Micron의 HBM 매출에서 Nvidia 비중은 급감하는 반면, SK Hynix와 Samsung은 점진적 점유율을 추가로 가져간다. Rubin의 pin speed 목표가 실제로 검증되기 전까지, 22 TB/s 헤드라인은 보장된 출하 수치가 아닌 포부적 사양으로 받아들이는 것이 현실적이다. (4) I/O Chiplet — NVLink-C2C, NVLink 6와 Coherent Memory Rubin의 off-die 통신은 이번 세대에 새로 도입된 두 개의 전용 I/O chiplet으로 분리된다. NVLink는 Nvidia의 독점 고대역폭 chip-to-chip 인터커넥트로, 표준 ...
Industry Insights
2026. 05. 26
2
0
98
Vera Rubin Decoded Pt. 2 | Rubin GPU 엔지니어링 심층 분석

Vera Rubin Decoded Pt. 1 | 플랫폼 개요와 아키텍처 맵

시리즈 안내 ⎯ Series Map Part 1 (현재 글): 플랫폼 개요와 아키텍처 맵 — Blackwell → Rubin 플랫폼의 핵심과 주요 사양 Part 2: Rubin GPU 엔지니어링 심층 분석 — process node, SM, HBM4, NVLink-C2C, 패키지, CPX와 Groq 3 LPX Part 3: Vera CPU와 네트워킹 실리콘 제품군 — Vera CPU, NVLink 6 Switch, ConnectX-9, BlueField-4, Spectrum-6 Part 4: 랙 조립 — 트레이, PCB, 쿨링 — HGX와 NVL72, 컴퓨트 트레이 모듈, cableless 미드플레인, PCB 업그레이드, 액체 냉각 Part 5: 랙 전력과 네트워킹 fabric — 전력 공급, HVDC, tray ↔ rack 배선, scale-up NVLink 6, scale-out InfiniBand와 Ethernet Part 6: 공급망 마스터 레퍼런스 — sub-system별 공급사 정리 1. Grace Blackwell → Vera Rubin: 플랫폼 개요 Vera Rubin (VR NVL72)은 Nvidia의 랙 단위 Oberon 아키텍처의 2세대로, Grace Blackwell (GB200 / GB300 NVL72) 다음의 플랫폼이다. "랙 단위 (rack-scale)"란 19인치 서버 랙 한 대 (보통 72개의 GPU가 담긴다)를 독립된 서버들의 묶음이 아닌 하나의 거대한 컴퓨터처럼 동작하도록 설계했다는 뜻이다. Vera Rubin의 핵심은 "extreme co-design" 에 있다. 이를 위해, 엔비디아에서 플랫폼 내 모든 레이어를 직접 설계한다. 실리콘 (칩 자체) 패키지 (각 칩을 고정시키고 냉각을 통제하는 메탈·세라믹 구조) 콜드 플레이트 (칩 위로 ...
Industry Insights
2026. 05. 26
3
0
106
Vera Rubin Decoded Pt. 1 | 플랫폼 개요와 아키텍처 맵

CPO에 관하여 Pt.5 | OCS · 테스트 · 광학 밸류체인

CPO와 교차하는 또 다른 광학 trend인 OCS, CPO 시대에 critical-path bottleneck이 되는 testing, 그리고 wafer → laser → PIC → transceiver로 이어지는 광학 밸류체인 전반. CPO 5부작 Part 1, Pluggables → CPO로의 단계적 전환 Part 2, CPO의 경제·아키텍처적 case Part 3, Optical Engine 내부 Part 4, 현존 주요 CPO Products Part 5, OCS · 테스트 · 광학 밸류체인 9. OCS (Optical Circuit Switching) CPO와 직교하면서 동시에 진행 중인 또 하나의 광학 trend가 OCS다. 광 신호를 전기 신호로 변환하지 않고 거울로 조향해 직접 전송하는 방식으로, 기존 광통신의 광 → 전기 → 광 변환 단계를 한 번 없앤다. (1) 작동 방식 두 지점 사이의 트래픽을 여러 계층의 패킷 스위치를 통과시키지 않고, 직접적인 광 경로를 만들어준다. 전기 ↔ 광 변환 횟수가 줄면 power와 latency가 크게 낮아지고, switching overhead가 감소하며 fabric 구성이 더 유연해진다. 단, OCS는 패킷을 직접 스위칭하지 않는다 — 트래픽 자체를 처리한다기보다 트래픽이 이동하는 경로를 바꾸는 새로운 networking layer에 가깝다. 따라서 기존 패킷 스위치를 대체하지 않고, 그 위 layer로 추가된다. (2) 두 가지 기술 로드맵 Lumentum은 OFC 2026에서 “new multi-year, multi-billion-dollar OCS agreement”를 체결했다고 밝혔다. FY25 매출이 $2.1B였던 점을 감안하면, OCS만으로 한 해 매출 규모만큼의 신규 매출원이 추가되는 수준. 1Q26 시점 update에서 Lumentum은 CY27 OCS ARR $1B+ 전망을 제시했고, 추가적으로 OCS demand는 CY25–CY28까지 CAGR >150%가 예상된다 (Google TPU를 제외한 scale-out only 시나리오 기준). 현재 3곳의 하이퍼스케일러가 Lumentum OCS를 채택 중이며, 이 중 두 곳이 volume의 majority를 차지한다. 공급 측면에서는 그동안 100% in-house 생산 구조였으나, 수요 폭증에 대응하기 위해 contract manufacturer를 통한 scaling으로 전환 중임을 2026년 1분기 실적 발표에서 밝혔다 — 공통 부품 생산량 증대를 통한 efficiency 개선으로 매출과 마진을 동시에 끌어올릴 수 있는 구조. (3) 어디에 채택되고 있는가 신규 데이터센터의 Spine 스위치 대체, TPU 인터커넥트, 랙 내부의 Scale-up 애플리케이션 등으로 확장될 잠재력이 있다. 일부 use case에서는 기존 구리 기반 스위치를 대체할 수 있다. (4) OCS는 광트랜시버 수요를 늘린다 OCS의 거울은 한 번 깔면 트랜시버만 바꿔가며 계속 쓸 수 있다 — 800G를 꽂으면 800G 스위치, 1.6T를 꽂으면 1.6T 스위치가 된다. 따라서 OCS 도입은 트랜시버 대체가 아니라 연결지점 추가인 셈. 트랜시버 성능에 더 예민한 application이라, top-tier 광트랜시버 vendor에게 유리한 흐름이다. (5) 시사점 OCS는 CPO와 경쟁하는 기술이 아니라 CPO와 직교하는 또 다른 광학 trend다. CPO가 device-level에서 전기 경로를 줄인다면, OCS는 fabric-level에서 광-전기 변환 횟수를 줄인다. 두 흐름 모두 long-term transceiver demand를 끌어올리는 방향으로 작용하며, hyperscaler가 동시에 추진하는 두 축이다. 10. 테스트의 중요성 Pluggables → LPO → NPO → CPO로 광학이 칩에 가까워질수록, optical engine이 실패할 때의 비용이 점점 더 커진다 — 모듈 교체가 아닌 “패키지 단위 폐기”가 default failure mode가 되기 때문. CPO 시대에는 testing이 단순 backend QA가 아니라 CPO adoption의 critical-path enabler가 된다. (1) CPO 시대에 testing이 병목이 되는 이유 광학 칩은 다음의 chain을 거쳐 만들어진다: Wafer → Die → Package → Module / Engine → System Pluggables 시대에는 불량이 발생해도 해당 모듈만 교체하면 됐다. CPO에서는 광 엔진에 문제가 생기면 전체 패키지 단위를 폐기하거나 재작업해야 할 수 있다. 따라서 검사는 더 이른 wafer / die 단계로 이동해야 하며, 검증 범위도 훨씬 넓어진다 — 단순 동작 여부만이 아니라 optical alignment, electrical characterization, thermal behavior까지. (2) Test Insertion: 4단계 SiPh 칩 테스트는 다음의 네 단계로 구성된다. Wafer-level PIC screening — 웨이퍼 위 PIC 단위 광학 특성 검증 EIC + PIC integration verification — 두 die 결합 후 통합 검증 독립 모듈 형태의 광 엔진 테스트 — 광 엔진 단위 검증 CPO 상태에서의 시스템 테스트 — SoC / ASIC과 통합된 후 시스템 단위 검증 (3) 초기 칩 증명 vs 스트레스 선별 (4) 광학 테스팅 수요는 Lab → Production...
Industry Insights
2026. 05. 09
8
0
161
CPO에 관하여 Pt.5 | OCS · 테스트 · 광학 밸류체인

CPO에 관하여 Pt.4 | 현존 주요 CPO Products

Nvidia (Quantum-X / Spectrum-X)와 Broadcom (Humboldt / Bailly / Davisson)의 production CPO 제품 라인업, Nvidia 세대별 도입 타임라인, 그리고 두 vendor의 진입 경로 비교. CPO 5부작 Part 1, Pluggables → CPO로의 단계적 전환 Part 2, CPO의 경제·아키텍처적 case Part 3, Optical Engine 내부 Part 4, 현존 주요 CPO Products Part 5, OCS · 테스트 · 광학 밸류체인 8. 현존 주요 CPO Products 분석 현재 CPO production roadmap을 실제로 끌어가는 vendor는 사실상 두 곳이다 — Nvidia와 Broadcom. 두 vendor 모두 결국 TSMC COUPE platform으로 수렴하지만, 도착하는 경로와 architectural 선택은 매우 다르다. (1) Nvidia (NASDAQ: NVDA) Nvidia의 CPO roadmap은 두 단계로 나뉜다. Quantum-X는 supply chain validation을 위한 1세대 제품이고, Spectrum-X는 더 공격적인 architectural bet에 가깝다. 1) Quantum X800-Q3450 Quantum X800-Q3450 — Nvidia 1세대 production CPO switch. Standard: InfiniBand Launch: 2H 2025 Aggregate BW: 115.2 Tbps OE BW: 1.6 Tbps (Gen 1) Architecture: 4 monolithic ASICs, multi-plane Multi-plane Architecture Quantum-X의 핵심은 multi-plane architecture다. 각 800G physical port는 4 × 200G lane으로 split되며, 각 lane은 서로 다른 ASIC에 연결된다. 데이터는 4개 ASIC 전체에 spray되고 destination port에서 다시 recombine된다. 결과적으로 4대의 28.8T discrete switch와 동일한 maximum cluster size (3-tier 기준 746,496 GPU)를 만들 수 있지만, shuffle이 box 내부에서 일어나기 때문에 외부 fiber complexity가 크게 줄어든다. Inside the package 4개의 ASIC 각각은 6개의 detachable optical sub-assembly로 둘러싸여 있고, 각 sub-assembly는 3개의 optical engine을 포함한다. ASIC당 18 OE × 1.6 Tbps = 28.8 Tbps. Package 전체로는 4 ASIC × 18 OE = 72 OE, 4 × 28.8T = 115.2 Tbps aggregate. Sub-assembly가 detachable이라는 점이 중요하다 — 기술적으로는 NPO에 가깝고, full CPO 대비 serviceability burden을 낮춘다. 200G MRM breakthrough Quantum-X의 가장 중요한 engineering claim은 각 MRM이 200G PAM4로 동작한다는 점이다 (8 modulators × 200G = 1.6 Tbps per engine). 이는 가장 빠른 MZM과 동등한 수준이며, “MRM은 NRZ에 묶여있다”는 industry assumption을 뒤집은 결과다. Nvidia + TSMC가 만들어낸 engineering 성과이고, 동시에 MRM-centric 전략을 정당화한다. Process node split PIC는 N65 (mature node) 위에서 제작된다. Optical component는 scaling으로 얻는 이득이 거의 없고, 오히려 larger geometry에서 더 안정적인 성능을 낸다. EIC는 N6 (advanced node) 위에서 제작된다. Driver, TIA, control logic은 density와 power efficiency 측면에서 advanced node의 이점이 명확하다. 두 die는 TSMC COUPE의 hybrid bonding으로 sub-micron interconnect 수준에서 연결된다. Cooling 두 개의 copper cold plate가 ASIC 위에 closed-loop liquid cooling 형태로 얹혀있다. ASIC thermals만을 위한 것이 아니라, 온도에 민감한 MRM을 narrow operating window 안에 묶어두기 위한 장치에 가깝다. Quantum-X 시사점 Quantum-X는 supply chain pipe-cleaner다. Detachable sub-assembly, smaller monolithic ASIC, 비교적 보수적인 1.6T OE는 1세대 제품으로서 fault tolerance가 높다. 무언가가 fail하면 sub-assembly를 swap하면 된다. Nvidia는 full-CPO architecture에 commit하지 않은 상태에서 real-world reliability data를 확보한다. 2) Spectrum-X Photonics Spectrum-X Photonics — Nvidia 2세대 CPO switch (Spectrum 6810 / 6800). Standard: Ethernet Launch: 2H 2026 Aggregate BW: 102.4 Tbps (6810) / 409.6 Tbps (6800) OE BW: 3.2 Tbps (Gen 2) Architecture: Multi-chip module (MCM) Spectrum-X는 Quantum-X와는 본질적으로 다른 architecture를 갖는다. Quantum-X가 monolithic ASIC 4개의 multi-plane 구성이라면, Spectrum-X는 훨씬 더 큰 reticle-class multi-chip module (MCM)에 기반한다. 6810은 단일 MCM을 사용하는 single-package 제품이다. 6800은 6810의 MCM (Spectrum-6 + 8 SerDes chiplet + OE 세트) 4개를 하나의 chassis 안에 통합하고, package 간 fiber shuffle을 내장해 4× aggregate bandwidth를 만든다. Why MCM matters 중앙의 Spectrum-6 switch ASIC은 102.4 Tbps의 reticle-class die다. 그 주위를 8개의 SerDes I/O chiplet (각 변에 2개씩)이 둘러싸며, 각 chiplet은 64 × 200G lane으로 12.8T를 처리한다. 이 분리 구조 덕분에 monolithic 대비 훨씬 더 많은 shoreline을 I / O에 할당할 수 있고, 이것이 Quantum-X 대비 4× per-package bandwidth를 가능하게 만든 핵심이다. 3.2 Tbps Optical Engine (Gen 2) OE 하나당 16 optical lane × 200G. Package 위에는 36개의 OE가 올라가지만, 그 중 32개만 active, 나머지 4개는 redundancy다. Quantum-X와 달리 OE는 substrate에 soldered 되어있어 in-place replacement가 불가능하다. 즉, field에서 OE 하나가 fail하면 spare OE가 takeover하는 구조에 의존한다. I/O chiplet 하나가 OE 4개를 feed한다 (12.8T per chiplet → 4 × 3.2T 깔끔한 fan-out). 6810 vs 6800 Spectrum-X 시사점 Spectrum-X는 architectural bet이다. Soldered OE (no field swap), 3.2T engine, 8개 SerDes chiplet을 동반한 MCM packaging 등, 훨씬 공격적인 design이다. 이 design은 Quantum-X가 지금 build하고 있는 supply chain을 전제로...
Industry Insights
2026. 05. 09
7
0
124
CPO에 관하여 Pt.4 | 현존 주요 CPO Products