BSPK의 톡 | Valley AI

[단독] 젠슨황과 밀담 나눈 정의선 "엔비디아 자율주행과 협업 검토" [CES 2026] [출처:중앙일보] https://www.joongang.co.kr/article/25396038

어떻게 될지 기대가 됩니다.

BSPK

2026.01.07

엔비디아 자율주행 Alpamayo 분석 및 자율주행 시장 전망

이번 CES2026에서 화제가 되고 있는 엔비디아 자율주행AI Alpamayo 논문 요약입니다. 상업용 사용이 가능한 오픈소스 모델입니다. 더 좋은 클로즈드 소스 모델이 있을 가능성이 높고, 파트너사는 이를 활용할 수 있을 것입니다. 인터넷 데이터로 pre-train한 VLM을 활용하여 학습 효율을 높였습니다. 테슬라 보다는 Xpeng 방식에 보다 가깝습니다. 약 8만 시간 주행 데이터로 학습된 만큼 커버리지가 넓지는 않을거라 생각 됩니다. 로보택시 보다는 ADAS(L2++)에 가까운 기능으로 이해하는 것이 좋아 보입니다. 글로벌 OEM 중 상당수가 테슬라 보다 엔비디아 라이센싱를 선호할 가능성이 높습니다. 자율주행 SW 구독 여부와 상관 없이 OEM은 엔비디아 HW를 디폴트로 설치해야 합니다. 원가 상승을 녹여내야 합니다. 엔비디아는 OEM 차량을 이용하여 데이터를 모으고 Alpamayo의 성능을 지속적으로 향상 시킵니다. 플릿을 늘리는 것 자체가 엔비디아의 경쟁력을 높이는 길이기 때문에 HW 마진을 상당부분 포기할 가능성이 높습니다. (GPM ~20%) 메르세데스, 랜드로버 같은 고가 차량보다 토요타 or 현대와 협력할 때 더 큰 파급력을 가질 것입니다. 자율주행 구독료는 OEM과 엔비디아가 쉐어하는 구조가 될 가능성이 높습니다. 다만 테슬라보다 저렴한 솔루션이 나오기는 쉽지 않습니다. 초록 (Abstract) 모방 학습을 기반으로 한 종단간(End-to-End) 자율 주행 모델은 모델과 데이터의 규모를 키우며 발전해 왔지만, 감독 신호가 부족하고 인과적 이해가 제한적인 안전 필수 롱테일(long-tail) 시나리오에서는 여전히 성능이 불안정합니다. 이를 해결하기 위해 본 논문에서는 인과 사슬(Chain of Causation, CoC) 추론과 궤적 계획을 통합한 시각-언어-행동 모델(VLA)인 Alpamayo-R1 (AR1)을 제안합니다. AR1의 핵심 혁신은 다음과 같습니다. CoC 데이터셋: 하이브리드 자동 라벨링과 인간 검증 파이프라인을 통해 구축되었으며, 주행 행동과 일치하는 의사 결정 기반의 인과적 추론 흔적을 생성합니다. 모듈형 아키텍처: 물리 AI용으로 사전 훈련된 Cosmos-Reason VLM 백본과 실시간 계획 생성을 위한 확산(diffusion) 기반 궤적 디코더를 결합했습니다. 다단계 훈련 전략: 지도 미세 조정(SFT)으로 추론을 학습시키고, 강화 학습(RL)을 통해 대규모 추론 모델의 피드백을 반영하여 추론 품질과 행동의 일관성을 최적화합니다. 평가 결과, AR1은 궤적 전용 베이스라인에 비해 까다로운 시나리오에서 계획 정확도를 12% 향상시켰으며, 시뮬레이션에서 오프로드 비율을 35%, 근접 사고 비율을 25% 감소시켰습니다. 또한 실차 테스트에서 99ms의 지연 시간으로 실시간 성능을 입증했습니다. 1. 서론 (Introduction) 자율 주행 시스템은 모듈식 아키텍처에서 종단간(E2E) 프레임워크로 전환되고 있으나, 기존 E2E 접근 방식은 고차원적인 추론이 필요한 롱테일 상황에서 취약점을 보입니다. 최근 LLM의 발전은 추론 시간(inference-time)에 '생각의 사슬(Chain of Thought)'을 생성하여 불확실한 상황에서 더 정확한 결정을 내릴 수 있는 가능성을 제시합니다. 그러나 기존의 자율 주행 VLA 모델들은 명시적 추론이 부족하거나, 주행 규칙과 무관한 자유 형식의 서술을 생성하는 경향이 있습니다. 이에 AR1은 추론이 반드시 인과적으로 근거가 있어야 하며 주행 작업과 구조적으로 일치해야 한다는 원칙하에, 구조화된 CoC 라벨링과 궤적 디코더, 그리고 RL 기반의 훈련 전략을 도입했습니다. 2. 관련 연구 (Related Work) 기존 연구들은 LLM을 계획 수립에 활용하거나 시각과 행동을 결합한 VLA 모델을 개발해 왔으나, 대다수가 반응적으로 작동하며 명시적인 추론 없이 훈련 분포를 벗어난 상황에 대처하는 데 어려움을 겪었습니다. 일부 추론 VLA 연구가 있었지만 자유 형식의 추론에 의존하여 인과적 근거와 행동 간의 일관성이 부족했습니다. AR1은 구조화된 CoC 프레임워크와 사후 훈련 정렬(Post-training Alignment)을 통해 추론 과정 자체를 개선하고 내부 논리가 인과적으로 일관되도록 보장한다는 점에서 차별화됩니다. 또한, 기존 데이터셋들이 갖는 모호한 설명이나 미래 정보를 참조하는 인과적 혼란(Causal Confusion) 문제를 해결하기 위해 의사 결정에 근거한 명시적인 CoC 데이터셋을 구축했습니다. 3. 추론 VLA 아키텍처 구축 (Building a Reasoning VLA Architecture) 효과적인 VLA를 위해 AR1은 다중 카메라 입력을 효율적으로 처리하고, 인과적으로 구조화된 추론을 수행하며, 정밀한 궤적을 실시간으로 생성하도록 설계되었습니다. 전체 아키텍처는 시각 인코더가 생성한 토큰을 Cosmos-Reason 백본이 처리하여 추론 흔적과 궤적 토큰을 생성하는 구조입니다. 그림 1: Alpamayo-R1 아키텍처 개요. 다중 카메라 이미지와 자차 동작(egomotion)은 비전 인코더에 의해 처리되어 시각 토큰을 생성하며, 이는 텍스트 입력과 함께 VLM 백본(Cosmos-Reason)으로 입력됩니다. 모델은 생각의 사슬(chain-of-thought) 추론과 이산적인 궤적 토큰을 자기회귀적으로 생성합니다. 추론 시에는, 플로우 매칭을 사용하는 행동 전문가 디코더가 추론 출력을 조건으로 하여 이산 궤적 토큰을 연속적이고 운동학적으로 실행 가능한 웨이포인트로 변환합니다. 시각 인코딩: 기본적으로 단일 이미지 토큰화를 사용하지만, Triplane이나 Flex와 같은 효율적인 다중 카메라 토큰화 방식을 지원하여 토큰 수를 크게 줄이면서도 성능을 유지할 수 있습니다. 궤적 디코딩: 훈련 시에는 이산 토큰을 학습하지만, 추론 시에는 플로우 매칭(Flow Matching) 기반의 행동 전문가(Action-Expert)를 사용하여 연속적이고 실행 가능한 궤적을 빠르게 생성합니다. 4. 인과 사슬 데이터셋 (Chain of Causation Dataset) 기존 데이터셋의 한계를 극복하기 위해 AR1은 명시적인 인과 구조를 강제하는 라벨링 프레임워크를 도입했습니다. 각 추론 흔적은 명확한 주행 결정(Driving Decision)(예: 차선 유지, 양보 등 폐쇄형 집합)과 이에 영향을 준 중요 구성 요소(Critical Components)(과거 이력의 인과적 요인)로 구성됩니다. 데이터 큐레이션 과정에서는 명시적인 주행 결정이 포함된 클립을 선택하고, 인과적 혼란을 방지하기 위해 의사 결정 직전의 키프레임을 선정합니다. 라벨링은 인간이 과거와 미래 정보를 분리하여 고품질 데이터를 생성하는 방식과, 메타 행동(Meta Actions)을 기반으로 GPT-5 등을 활용해 대규모 데이터를 생성하는 자동 라벨링 방식을 결합한 하이브리드 절차를 따릅니다. 그림 2: 기존 데이터셋(Malla et al., 2023; Chi et al., 2025; Arai et al., 2025)에서 흔히 발생하는 문제점들을 보여주는 추론 흔적의 예시. 노란색으로 강조된 텍스트는 궤적과 연관된 구체적인 주행 결정을 명시하지 못하는 모호한 행동 묘사를 나타냅니다. 파란색으로 강조된 텍스트는 자차(ego vehicle)의 의사 결정에 직접적인 정보를 주지 않는 상황적 관찰과 같은 피상적인 추론을 의미합니다. 빨간색 강조는 자차의 실제 행동과 모순되는 부정확하거나 인과적으로 일관되지 않은 추론을 나타냅니다. 그림 3: 제안하는 구조화된 CoC 라벨링 파이프라인의 개요로, 다음 5단계로 구성됩니다. (1) 클립 선택(Clip Selection): 명시적인 주행 결정이 포함된 클립을 선택하며, 인과적 정보가 제한적인 저신호(low-signal) 클립은 걸러냅니다. (2) 키프레임 라벨링(Keyframe Labeling): 각 비디오 클립 내에서 의사 결정이 이루어지는 순간을 식별하여, 잠재적인 인과적 혼란을 최소화합니다. (3-5) 구조화된 CoC 라벨링(Structured CoC Labeling): 최종 CoC를 구축하고 인과적 혼란을 더욱 줄이기 위해, 먼저 미래 프레임의 인과 요인에 대한 참조를 피하면서 관찰된 내용에서 '중요 구성 요소'를 주석 처리한 다음, 그에 상응하는 '주행 결정'을 라벨링합니다. 그 후, 주행 결정과 인과적 요인들을 바탕으로 자연어 형태의 추론 흔적을 작성합니다. 그림 4: 라벨링된 CoC 추론 흔적의 예시. 주행 결정(driving decisions)과 중요 구성 요소(critical components)가 CoC로 구성되어 있으며, 각각 그에 맞춰 강조 표시되어 있습니다. 5. 훈련 전략 (Training Strategy) AR1은 다음의 3단계 훈련 전략을 통해 추론 능력과 행동 예측 능력을 단계적으로 향상시킵니다. 행동 모달리티 주입: VLM에 궤적 토큰을 학습시키고, 동시에 플로우 매칭 전문가를 훈련하여 궤적 생성 능력을 부여합니다. 추론 이끌어내기 (SFT): CoC 데이터셋을 사용한 지도 미세 조정을 통해 모델이 주행 결정에 대한 인과적 설명을 생성하도록 가르칩니다. RL 기반 사후 훈련: GRPO 알고리즘을 사용하여 추론 품질, 추론-행동 일관성, 궤적 품질이라는 세 가지 보상을 최적화합니다. 특히 대규모 추론 모델(LRM)을 비평가(Critic)로 활용하여 추론의 논리성을 평가하고, 생성된 추론이 실제 궤적과 일치하는지 검증합니다. 6. 실험 (Experiments) AR1은 개방형 루프 및 폐쇄형 루프 평가, 실차 테스트 등 다양한 실험을 통해 성능을 입증했습니다. 개방형 루프(인간 주행 유사성 평가): AR1은 경로 정보 유무와 관계없이 베이스라인을 능가했으며, 특히 복잡한 롱테일 시나리오에서 12%의 성능 향상을 기록했습니다. 폐쇄형 루프 (시뮬레이션 주): 궤적 전용 모델 대비 오프로드 비율을 35%, 근접 사고 비율을 25% 줄이며 안전성을 입증했습니다. RL 효과: RL 사후 훈련은 추론 품질을 45%, 추론-행동 일관성을 37% 향상시켰습니다. 일관성 보상은 모델이 그럴듯하지만 실행 불가능한 행동을 생성하는 것을 방지하는 데 핵심적인 역할을 했습니다. 제거 연구 (Ablation): 모델 크기가 클수록(7B), 일반 모델보다 도메인 특화(Cosmos-Reason) 모델일수록 성능이 우수했습니다. 또한 플로우 매칭 디코딩이 자기회귀 방식보다 정확도와 속도 면에서 효율적인 것으로 나타났습니다. 실차 테스트: 도심 환경에서 99ms의 지연 시간으로 실시간 자율 주행을 성공적으로 수행했습니다. 7. 결론 (Conclusion) 본 연구는 구조화된 CoC 추론과 궤적 예측을 통합한 Alpamayo-R1을 통해 롱테일 시나리오에서의 자율 주행 성능을 크게 향상시켰음을 보였습니다. 연구진은 향후 모델 및 CoC 데이터셋의 일부를 오픈 소스로 공개하고, 계층적 정책 구조나 적응형 추론 등을 추가로 연구할 계획입니다.

[단독] 젠슨황과 밀담 나눈 정의선 "엔비디아 자율주행과 협업 검토" [CES 2026] [출처:중앙일보] https://www.joongang.co.kr/article/25396038

어떻게 될지 기대가 됩니다.

BSPK

2026.01.07