연산에서 네트워킹으로, 병목의 전환

핵심 요약

1996–2023 정규화 스케일링 로그 차트 — HW FLOPS는 20년간 60,000배로, DRAM 대역폭 100배·인터커넥트 대역폭 30배를 한참 앞지른다

칩의 연산 성능은 20년간 ~60,000배 뛰었지만, 그 연산에 데이터를 공급하는 배선은 따라오지 못했다.
오늘날 AI 가속기의 진짜 제약은 네트워킹이다. GPU↔GPU 네트워크든 GPU↔메모리 HBM 버스든 본질은 같다. 둘 다 비좁은 die edge를 지나야 하기 때문이다.
구리에는 더 내어줄 가장자리가 없다. 결국 광학이 해답이나, 전환은 단계적으로 온다. SerDes를 하루아침에 걷어 내고 co-packaged optics로 바꿀 수는 없다.

일단 광학이 주 I/O 매체가 되면, 메모리는 GPU 옆에 함께 패키징하는 대상이 아니라 fabric 너머에서 붙여 쓰는 자원이 된다 — 연산 풀과 값싼 commodity DRAM 풀이 하나의 저지연 optical fabric에 연결되고, optical switch가 경로를 잡는다.
HBM은 사라지지 않는다 — 캐시 계층으로 강등될 뿐이다.

이 노트를 읽는 법

Section 0 — 왜 광학인가, 왜 단계적으로 접근할 수밖에 없는가에 대해 짧게 되짚는다.
Section 1–3 — 핵심: 가속기는 네트워크에 묶여 있다 → 메모리도 네트워크의 일부다 → 메모리를 optical 스위치 너머로 분리한다.
Section 4 — 어떤 기업들이 해당 아키텍처를 개발하고 있는지, 어디를 봐야 하는지.

출처 종합

네 개의 출처를 기반해 핵심 주장 하나로 엮었다. 엔지니어링 방향성은 출처들 사이에서 비교적 잘 교차 검증되지만, 정확한 시점과 HBM 쇠퇴의 규모는 불확실하다.

Irrational Analysis — HBM: High-Bandwidth Mistake (Jun 01 2026). 메모리 분리 (disaggregation) 주장. 자기 포지션을 방어하는 색채가 강하다 — DRAM 롱 포지션에서 Samsung을 노골적으로 미는 입장이며, "7~10년 내 HBM 물량 ~90% 감소" 주장은 전적으로 latency 문제 (§3)가 대규모로 풀린다는 전제에 기댄다.
SemiVision — Lightmatter Taiwan Tech Day in 20 Minutes (Jan 29 2026)와 Lightmatter at Computex 2026: The Bottleneck Has Shifted from Compute to Interconnect (Jun 04 2026). Optical fabric 쪽 주장으로, 서술의 중심은 Lightmatter다.
SemiAnalysis — Co-Packaged Optics (CPO) Book — Scaling with Light. CPO의 경제성·단계론·신뢰성 데이터.
CPO 전환, DSP 비용·전력 근거, Rubin의 HBM4 핀 속도 요구에 대한 보강 자료는 동반 노트 CPO에 관하여 (Part 1–2)와 Vera Rubin Decoded (Part 2)에서 가져왔다.

0 · Refresher — 왜 광학인가, 왜 단계적인가

0.1 진짜 범인은 die edge (shoreline)

"shoreline"이 뜻하는 것

칩은 하나의 섬에 가깝다. 전력·메모리·네트워크 등 모든 외부 연결은 칩의 둘레를 건너야 한다.
그 둘레는 die 크기로 정해지고, 그 위에 배치할 수 있는 유효 I/O lane 수가 곧 shoreline (=beachfront)이다.
데이터 이동량이 커질수록 병목은 코어가 아니라 이 "칩의 둘레"가 된다.

하나의 문제를 두 관점으로 바라보면

한쪽은 이를 shoreline 문제라 부르고, 다른 쪽은 메모리 대역폭을 "I/O 밀도 문제"로 본다.
동일한 문제를 서로 다른 각도에서 설명하고 있을 뿐이다.

Logic die를 HBM이 둘러싸고 I/O가 둘레에 몰린 그림 — "통신은 칩 둘레에서 일어나는데, shoreline이 부족하다"는 캡션

Logic die 주변을 HBM이 둘러싸고, SerDes I/O가 같은 가장자리를 놓고 경쟁한다. "새로운 패러다임이 필요하다."

0.2 구리의 세 가지 한계점

SerDes & PHY

SerDes (Serializer/Deserializer)는 고속 직렬 비트 스트림을 구리선에 싣고, 반대편에서 다시 복원하는 회로다.

PHY: 채널과 물리적으로 맞닿는 더 넓은 아날로그 프런트엔드.
둘 다 die 가장자리에 자리 잡아 shoreline·전력·면적을 잡아먹는다.

세 가지 한계점

도달 거리. 구리선을 탄 고속 전기 신호는 ~2 m를 넘어서면 급격히 약해진다. NVLink는 지금 GPU당 ~7.2 Tb/s 속도로 네트워킹이 가능하나 (Rubin은 ~14.4 Tb/s 목표), 그건 단일 랙 내에서만 가능하다. Copper scale-up 도메인을 랙 외부로, 무한히 확장할 수는 없다.
비선형 전력. Broadcom에 따르면 최근 스위치 세대들에서 대역폭이 ~80배 오르는 동안 시스템 전력은 ~22배 올랐고, SerDes/광학 전력은 코어 로직보다 3배 이상 빠르게 늘었다. 비트가 더 필요해지는 바로 그 지점에서 비트당 전력 효율이 악화된다.
고속에서의 insertion loss.
- 단일 구리선 내 전기신호의 속도를 224 Gbit/s (그리고 "진짜" 448G)까지 밀어붙이면 신호 무결성의 벽에 부딪힌다 — bump, via, trace, 커넥터 하나하나가 신호를 깎아먹는다.
- PAM4로 단일 lane에서 448G의 속도를 내려면 ~244 Gbaud가 필요한데, 전력과 손실 측면에서 감당하기 어렵다.
- Nvidia가 채널당 448G에 도달하는 방식도 두 lane을 사용한 양방향 SerDes (한 채널을 224G Tx + 224G Rx가 나눠 쓰는 방식)를 통해서지, 단일 lane을 통한 단방향 448G는 아니다.

PAM4

Pulse Amplitude Modulation, 4 레벨 — 자리당 1비트 대신 2비트 (전압 4단계)를 실어, 같은 baud rate에서 비트율을 두 배로 만든다.
더 밀어붙이면 (PAM6/PAM8) 비트는 얻지만 신호 마진과 전력을 잃는다.

BGA ball·bump·substrate·PCB trace·via·커넥터·paddle card 구간별 채널 insertion loss (dB) 를 53 / 106 / 212 Gbps에서 비교 — 212 Gbps에서 손실이 급격히 악화

212 Gbps에서는 신호가 커넥터에 닿기도 전에 ~20 dB를 잃는다 — 따라서 "특화된 ASIC과 CPO 인터커넥트의 개발을 요구한다."

0.3 왜 광학인가, 그리고 핵심 지표들

광학은 정말 중요한 지표에서 이긴다: 네트워킹 거리가 증가해도 유지되는, 에너지당 대역폭 밀도.

구리를 통한 전기 링크는 도달 거리에 따라 신호 품질이 지수적으로 감소하지만, 광학 링크는 거의 변함없다.
업계 격언은 "되도록 가능한 곳엔 구리, 어쩔 수 없는 곳엔 광학"인데, 그 "어쩔 수 없는" 선이 점점 칩 쪽으로 다가오고 있다.

Pluggables → CPO
광학은 단계적으로 칩에 가까워진다. 각 단계는 광신호 변환 직전의 전기 구간을 줄이고, 그 결과 DSP (Digital Signal Processor)를 떼거나 SerDes 부담을 낮출 수 있다. 전력 수치는 800G 기준이다.

Traditional pluggables — 엔진이 전면 패널 cage (~15–30 cm)에 있다. 긴 PCB 경로 때문에 DSP가 필요하다. ~30 W; 전면 패널 hot-swap.
LPO (Linear Pluggable) — 같은 cage를 쓰되 DSP를 떼어내 그 부담을 호스트로 넘긴다. ~15–18 W. OBO와 CPO 사이의 한 단계가 아니라 pluggable의 한 갈래다.
OBO (On-Board Optics) — 엔진을 보드 중앙부에 납땜한다 (~수 cm). 여전히 DSP가 필요하고, 납땜형이라 현장 교체가 어렵다. ~20 W. "양쪽의 최악" (CPO의 복잡함 + pluggable의 한계)에 가깝다.
NPO (Near-Packaged Optics) — 광학 엔진이 패키지 근처, 흔히 소켓에 꽂는 별도 substrate에 놓인다. SerDes까지는 여전히 짧은 구리선 구간이 남지만, DSP는 간소화할 수 있다. ~15 W; 모듈 단위 교체 가능. 위험이 낮은 중간 단계다.
CPO (Co-Packaged Optics) — 엔진이 호스트 패키지 위 (~10 mm)에 올라간다. long-reach SerDes와 transceiver DSP를 없앤다. ~5 W; 패키지 단위 교체.
OE (Optical Engine) = PIC (Photonic IC — modulator·waveguide·detector) + EIC (Electronic IC — driver·TIA·제어 로직).

각 단계를 아키텍처 단면도로 보면 다음과 같다. 기준점에서 시작해, 단계마다 optics를 ASIC 쪽으로 당겨 온다:

Traditional pluggable transceiver — 광 모듈이 전면 패널 cage에, switch/XPU ASIC에서 15–30 cm 떨어져 있다. 고속 전기 신호가 긴 손실 PCB 경로를 지나 모듈의 DSP로 들어간 뒤에야 fiber로 광 변환된다

기준점 — traditional pluggables: 모듈이 전면 패널 cage에, ASIC에서 손실 PCB로 15–30 cm 떨어져 있다. 그 긴 전기 구간이 바로 DSP가 복원해야 할 대상이다.

On-Board Optics (OBO) — 광 모듈이 전면 패널 cage 대신 보드 중앙부 ASIC 근처에 납땜돼 있다. 전기 신호는 여전히 수 cm의 PCB를 지나고, 빛은 내부 fiber jumper로 전면 패널까지 간다

OBO: 모듈이 ASIC 근처 보드 중앙부로 옮겨 오지만, 수 cm의 PCB 구간은 남는다 — 그래서 DSP도 남는다. 광신호는 내부 fiber jumper를 타고 전면 패널에 닿는다.

Near-Packaged Optics (NPO), 2.5D — ASIC과 광 엔진이 같은 PCB 위 별도 패키지에 나란히 놓인다. pluggables나 OBO보다 전기 구간이 훨씬 짧고, 광 엔진은 ASIC과 분리된 소켓/interposer로 교체 가능하다

NPO: 광 엔진이 같은 PCB 위 별도의 교체 가능한 패키지로 ASIC 옆에 놓인다 — 전기 구간이 훨씬 짧고 DSP는 간소화할 수 있다.

OBO vs NPO vs CPO 아키텍처 비교 — 광 엔진이 보드 중앙부 (OBO) 에서 ASIC 옆 별도 패키지 (NPO) 로, 다시 ASIC 옆 호스트 substrate (CPO) 로 옮겨 가며 단계마다 전기 구간이 짧아진다

ASIC, EIC, PIC를 나란히 둔 모습 — 광 엔진을 호스트 substrate에 올려 전기 경로를 ~mm로 줄이고 DSP를 아예 없애는 건 CPO뿐이다.

DSP: 비용과 전력의 핵심 표적

Pluggable transceiver에서 DSP는 긴 구리선 구간을 지나며 열화된 전기 신호를 리타이머를 통해 복원한다. 너무 멀리 보내 손상된 신호를 되살리기 위한 회로다.
DSP는 800G 모듈 전력의 ~50% (30 W 중 ~20 W)이고 BoM의 20~30%다. 게다가 transceiver 자체가 클러스터 TCO의 ~10%를 차지할 수 있다. 그래서 DSP는 비용과 전력 양쪽에서 가장 큰 지렛대 중 하나다.
CPO를 통해 전기 신호의 이동 구간을 줄이면 DSP는 더 이상 필요 없다.

계산 예시:

18k-GPU 규모의 GB300 클러스터를 2-layer InfiniBand fabric으로 묶으면 800G transceiver ~18,432개 + 1.6T transceiver ~27,648개가 필요하다.
DSP당 6–7 W (800G), 12–14 W (1.6T)를 소비한다고 잡으면, back-end 네트워크에만 DSP 전력 ~480 kW (랙당 ~1.8 kW)가 들어간다. 여기가 공략 지점이다.

DSP vs CPO — 링크 단위로는 크지만 클러스터 단위에서는 희석된다

DSP transceiver를 CPO로 바꾸면: transceiver 전력 −84% 절감, 네트워킹 전력 −23% 절감이 가능하지만, 총 클러스터 전력으로는 ~2% 절감에 그친다. (3-Layer 네트워크 클러스터 기준)

개별 링크 단위 기준:

상당한 절감효과를 이룰 수 있다. DSP 기반 pluggable과 CPO 광 엔진 (OE) + 외부 레이저를 대역폭 800G로 정규화해 비교하면:
- 800G DR4 pluggable: ~16–17 W 소비에서 → CPO OE + 레이저: ~4–5 W 소비 = ~73% 감소.
- 800G 2×FR4 pluggable: ~15 W 소비에서 → OE + 레이저: 5.4 W 소비 = ~65% 감소. 모듈 종류도 다르고 별개의 연구인데도 같은 범위로 떨어진다는 점이 결과의 신뢰도를 높인다.
어떻게 이런 가파른 절감이 가능한지: DSP가 pluggable 전력의 대부분을 차지한다. CPO는 짧은 전기 구간 덕에 그 규모의 전력 소보가 불필요하고, 이 하나의 절감이 CPO의 대표 수치인 링크당 ~50–80% 전력 절감에 가장 크게 기여한다.

클러스터 단위 기준:

클러스터 규모에서는 희석된다. 3-layer GB300 NVL72 클러스터 전반에서 DSP transceiver를 CPO로 바꾸면 transceiver 전력은 ~84%, 네트워킹 전력은 ~23% 줄어든다.
하지만 네트워킹은 클러스터 전력의 ~9%에 불과해서, 총 클러스터 전력은 ~2%밖에 안 줄어든다 (2-layer 망에서도 ≤~4%).
비용도 마찬가지다: 네트워킹 비용 −21%지만 총 클러스터 비용은 −3% (2-layer 망에서 최대 −46% / −7%).
따라서 scale-out 쪽은 전력 절감의 상한이 낮고, 전략적 견인력은 scale-up에 있다. 전력 2–4% / 비용 3–7% 절감만으로는 서비스 용이성·신뢰성·vendor lock-in에 대한 우려를 안고 뛰어들기 어렵다.
CPO가 "있으면 좋은" 게 아니라 반드시 필요한 곳은 scale-up이다 — copper/SerDes 스케일링이 물리적 벽에 부딪히는 영역이며, 광학의 영역이 scale-out에서 scale-up 순으로 확장되는 이유도 바로 이것이다.

0.4 왜 단계적이어야 하나

SerDes를 곧바로 CPO로 갈아끼울 수는 없다. 광학은 integration ladder (통합의 사다리)를 오른다. 단계가 올라갈수록 die에 더 가까워지고 비트당 비용은 낮아지지만, 구현 난도는 높아진다:

"칩에 더 가까이" 가는 photonics 진화 사다리 — Near Package Optics (~8–15 pJ/bit) → 2D CPO (~6–10) → 3D CPO (~3) → 3D Photonic Interposer (~2.5), 대역폭은 1배→100배로, 전력 효율은 함께 상승

단계적 경로: copper/pluggables → NPO → 2D CPO → 3D CPO → 3D photonic interposer.

발목을 잡는 건 물리적 한계가 아니라 경제성과 운영적 한계다

공급망 미성숙.
신뢰성 / 수율.
서비스 용이성 — 납땜된 OE 하나가 고장 나면 스위치 전체를 못 쓰게 만들 수 있다.
고객이 비용 협상력을 잃을 수 있다는 우려 — transceiver 공급사 여러 곳을 압박하는 편이 소수의 스위치 ...

연산에서 네트워킹으로, 병목의 전환

연산에서 네트워킹으로, 병목의 전환

GTC Taipei 2026 Keynote Shots

Vera Rubin Decoded Pt. 6 | 공급망 마스터 레퍼런스

Vera Rubin Decoded Pt. 5 | 랙 전력과 네트워킹 fabric

Vera Rubin Decoded Pt. 4 | 랙 조립 — 트레이, PCB, 쿨링

Vera Rubin Decoded Pt. 3 | Vera CPU와 네트워킹 실리콘 제품군

핵심 요약

이 노트를 읽는 법

출처 종합

0 · Refresher — 왜 광학인가, 왜 단계적인가

0.1 진짜 범인은 die edge (shoreline)

0.2 구리의 세 가지 한계점

0.3 왜 광학인가, 그리고 핵심 지표들

0.4 왜 단계적이어야 하나

회원가입만 해도
이 글을 무료로 읽을 수 있어요.

GTC Taipei 2026 Keynote Shots

Vera Rubin Decoded Pt. 6 | 공급망 마스터 레퍼런스

Vera Rubin Decoded Pt. 5 | 랙 전력과 네트워킹 fabric

Vera Rubin Decoded Pt. 4 | 랙 조립 — 트레이, PCB, 쿨링

Vera Rubin Decoded Pt. 3 | Vera CPU와 네트워킹 실리콘 제품군

연산에서 네트워킹으로, 병목의 전환

연산에서 네트워킹으로, 병목의 전환

GTC Taipei 2026 Keynote Shots

Vera Rubin Decoded Pt. 6 | 공급망 마스터 레퍼런스

Vera Rubin Decoded Pt. 5 | 랙 전력과 네트워킹 fabric

Vera Rubin Decoded Pt. 4 | 랙 조립 — 트레이, PCB, 쿨링

Vera Rubin Decoded Pt. 3 | Vera CPU와 네트워킹 실리콘 제품군

핵심 요약

이 노트를 읽는 법

출처 종합

0 · Refresher — 왜 광학인가, 왜 단계적인가

0.1 진짜 범인은 die edge (shoreline)

0.2 구리의 세 가지 한계점

0.3 왜 광학인가, 그리고 핵심 지표들

0.4 왜 단계적이어야 하나

회원가입만 해도이 글을 무료로 읽을 수 있어요.

GTC Taipei 2026 Keynote Shots

Vera Rubin Decoded Pt. 6 | 공급망 마스터 레퍼런스

Vera Rubin Decoded Pt. 5 | 랙 전력과 네트워킹 fabric

Vera Rubin Decoded Pt. 4 | 랙 조립 — 트레이, PCB, 쿨링

Vera Rubin Decoded Pt. 3 | Vera CPU와 네트워킹 실리콘 제품군

회원가입만 해도
이 글을 무료로 읽을 수 있어요.