테슬라 AI는 무엇이 다른가?




테슬라 AI 팀을 이끄는 아쇽 엘루스와미(Ashok Elluswamy)는 이번 발표에서 테슬라의 자율주행 기술 현황과 미래 비전, 그리고 이를 실현하는 핵심 기술인 '엔드투엔드(End-to-End) 신경망'에 대해 상세히 설명했습니다.
기본적으로 ICCV2025에서 발표한 내용과 큰 차이는 없습니다만, 아쇽이 직접 강단에 올라 발표 했다는 점에서 더 주목을 받는 것 같습니다.
핵심만 요약하자면... 테슬라는 압도적인 격차로 앞서가고 있습니다. 테슬라는 경쟁사가 '필요'를 생각하지도 못한 기술을 '상용화' 하는 수준의 격차를 보입니다. 21년 이미 시뮬레이션을 이용한 데이터 증강을, 23년 이미 월드 모델 기반의 검증 모델을 만들었습니다.
사실 많은 기업은 테슬라가 이미 완성하고 보여준 것을 비슷하게라도 구현하는데 2년 이상의 시간이 걸리는 수준입니다.
그리고, 테슬라가 그들의 기술을 보여줄 수 있는 이유는 하나 입니다. LLM 구조의 본질은 데이터 압축이며, 자율주행에 있어 극복해야 하는 엣지 케이스는 '희귀 시나리오'입니다. 그리고 '희귀 시나리오'는 대규모 리얼 데이터 없이 수집할 수 없습니다.
경쟁사에서 비슷한 구조를 흉내낸 모델은 만들 수 있어도, 비슷한 수준의 성능을 내기 위해서는 동등한 용량의 리얼 데이터가 필요합니다. 그리고 경쟁사가 그정도 데이터를 수집하는 것은 '불가능'합니다.
우선 그는 현재 오스틴에서 안전 요원 없는 완전 무인 로보택시 서비스가 일반에 공개되어 운영 중이며, 수십억 마일의 주행 데이터를 분석한 결과 FSD(완전 자율 주행)가 인간 운전자보다 2배 이상 안전하다는 사실을 강조했습니다. 테슬라의 자율주행 시스템은 인지, 판단, 제어 과정을 개별적으로 나누지 않고, 카메라의 시각 정보를 입력받아 조향과 가속 같은 제어 명령을 직접 산출하는 단일 '엔드투엔드 신경망' 방식을 채택하고 있습니다. 이는 복잡한 규칙 기반 시스템보다 데이터 처리 효율이 높고, 예기치 못한 돌발 상황이나 미묘한 교통 흐름의 맥락을 파악하는 데 훨씬 유리하기 때문입니다.
이러한 시스템을 완성하기 위해 테슬라는 전 세계에 퍼진 차량 플릿(Fleet)을 활용해 평범한 주행 영상이 아닌 희귀하고 가치 있는 데이터를 선별하여 학습시킵니다. 또한, 자율주행의 난제인 안전성 평가를 해결하기 위해 생성형 AI 기반의 '월드 시뮬레이터'를 개발했습니다. 이 시뮬레이터는 실제와 구분하기 어려운 가상의 주행 영상을 생성하여 과거의 사고 사례를 재현하거나 새로운 위험 상황을 만들어냄으로써, 실제 도로 테스트 없이도 소프트웨어의 안전성을 검증할 수 있게 해 줍니다.
주목할 점은 이 모든 자율주행 기술이 자동차에만 국한되지 않고 휴머노이드 로봇 '옵티머스'의 기반 기술로도 확장된다는 것입니다. 아쇼크는 인간이 눈으로 정보를 얻어 세상을 살아가듯, 고가의 센서 없이 카메라와 AI만으로도 완전 자율주행이 충분히 가능하다고 확신했습니다. 끝으로 그는 올해 말 스티어링 휠이 없는 '사이버캡' 출시와 옵티머스 양산을 예고하며, 이를 통해 운송과 노동 비용을 획기적으로 낮춰 인류에게 풍요를 제공하겠다는 비전을 제시했습니다.
아쇼크 엘루스와미(Ashok Elluswamy)
저는 테슬라에서 일하고 있습니다. 지난 12년 동안 근무했으며 현재 테슬라 AI 팀을 이끌고 있습니다. 오늘 초대해 주셔서 감사합니다. 우리 팀이 그동안 작업해 온 것들, 팀의 미션은 무엇인지, 그리고 향후 로드맵은 어떠한지에 대해 말씀드리고자 합니다.
우선 테슬라의 미션은 전 세계를 위해 놀라운 풍요를 생산하는 것입니다. 테슬라는 역사적으로 자동차를 생산하는 것으로 알려져 왔습니다. 하지만 더 중요한 점은 이 차들이 스스로 운전할 수 있다는 것입니다. 모든 차량에는 자율 주행을 수행하기 위한 모든 필수 센서와 연산 장치가 탑재되어 있습니다.
여기 보시는 것은 오스틴에서 운영 중인 우리의 로보택시 서비스입니다. 차 안에는 운전하는 사람이 아무도 없습니다. 승객이 호출하면 차가 와서 오스틴 전역으로 그들을 태워줍니다. 이 서비스는 이달 초부터 대중에게 공개되었습니다. 이전에는 FSD(Full Self-Driving)를 감독하는 안전 요원이 탑승했었지만, 이제는 없습니다. 사람들은 차에 타서 이미 입력된 주소로 '여행 시작' 버튼만 누르면, 차가 원하는 곳 어디든 데려다줍니다. 복잡한 교통 상황이 있는 공공 도로에서 말이죠. 이 모든 것은 카메라와 AI에 의해 구동됩니다.
그리고 회사의 미래는 단지 자동차뿐만이 아닙니다. 우리는 기능성의 다음 단계로 나아가는 휴머노이드 로봇도 개발하고 있습니다. 테슬라 차량이 운송을 위한 저비용의 확장 가능한 솔루션이라면, 휴머노이드 로봇은 모든 육체노동을 자동화하기 위한 저비용의 확장 가능한 솔루션입니다. 휴머노이드 로봇을 만드는 이유는 '하위 호환성(backwards compatible)' 때문입니다. 인간이 문제 해결을 위해 실제 세상에 투입되는 것처럼 휴머노이드 로봇을 어떤 임무에든 투입할 수 있습니다. 로봇은 인간과 같은 인터페이스를 사용하므로 하위 호환이 됩니다. 즉, 이 로봇들을 우리 세상에 들이기 위해 새로운 인프라를 구축할 필요가 없습니다. 그들은 이미 투입되어 큰 영향을 미칠 준비가 되어 있습니다.
로보택시 서비스 외에도, 우리는 구매한 모든 테슬라 소유주에게 '완전 자율 주행(FSD)'을 배포했습니다.
지금 보시는 영상들은 FSD를 켜고 주행하던 사람들이 까다로운 상황에서 소프트웨어 덕분에 위험을 모면하는 장면들입니다. 예를 들어, 여기 버스가 다가오자 차량이 길을 터주기 위해 자동으로 후진합니다. 매우 지능적인 행동을 보여줍니다. 이 기능은 하드웨어 3와 4가 장착된 모든 테슬라 차량에 적용됩니다.
이러한 안전성 향상은 정량적으로도 나타납니다. 여기 전체 차량들의 충돌 전 주행 마일을 보여주는 차트가 있습니다. 다른 것보다 훨씬 높게 솟아 있는 파란색 막대가 바로 FSD를 사용하여 주행했을 때입니다. 기본적인 능동 안전장치만 있는 전통적인 주행 방식도 아무것도 없는 것보다는 낫지만, 사람이 직접 운전하는 것보다 자율 주행을 이용하는 것이 수십억 마일의 데이터를 통해 볼 때 확실히 더 안전합니다. 이건 단순히 고속도로 주행만 따진 게 아닙니다. 고속도로와 일반 도로 모두 포함해서 수동 운전이라는 기준점보다 최소 2배 이상 더 안전합니다. 그러니 테슬라를 가지고 계신다면 반드시 자율 주행을 사용하시기 바랍니다. 저도 개인적으로 항상 사용합니다.
오늘 우리는 이 소프트웨어를 작동하게 만드는 원리, 이런 시스템을 구축하는 데 따르는 도전 과제들, 그리고 이 시스템의 안전성을 어떻게 평가하는지에 대해 다룰 것입니다.
먼저, 테슬라는 자율 주행 소프트웨어를 만들기 위해 '엔드투엔드(End-to-End)' 주행 시스템을 사용합니다. 현대 시대에는 당연히 엔드투엔드 시스템을 써야 한다고 생각하실지 모르지만, 이는 업계에서 보편적으로 동의하는 바는 아닙니다. 예를 들어, 많은 경쟁 솔루션들은 인지, 계획, 예측 스택 등이 분리된 모듈식 접근 방식을 사용합니다. 하지만 테슬라는 이 모든 시스템을 버리고 원시 센서 입력을 받아들이는 단일 엔드투엔드 신경망을 갖췄습니다. 입력값은 주로 차량 내 8개 카메라의 영상이지만, 내비게이션 지시, 차량 속도나 조향 같은 운동학적 상태, 오디오 등도 포함됩니다. 이 신경망은 차가 어떻게 행동해야 할지, 조향이나 가속 같은 다음 행동이 무엇이어야 할지를 결정합니다.
그 이유는 몇 가지가 있습니다. 우선, 모든 것을 규칙 기반이나 모듈식 시스템으로 코드화하면 '추상화의 누수(leaky abstractions)'가 발생합니다. 원시 측정값이 가질 수 있는 불확실성의 모든 세부 사항을 하위 시스템에 전달하기 어렵습니다. 그리고 이 모든 것은 긴밀하게 결합되어 있습니다. 전통적인 소프트웨어 공학에서는 관심사를 분리하고 모듈화하라고 가르치지만, 실제 로봇 공학에서는 그렇게 명확히 분리하기가 매우 어렵습니다. 정보가 촘촘하게 흘러야 합니다.
몇 가지 예를 들어보겠습니다. 일반적으로 반대 차선으로 넘어가는 건 아주 나쁜 일입니다. 고속으로 오는 차량이 있을 수 있으니 넘어가고 싶지 않겠죠. 하지만 여기 물웅덩이가 있습니다. "물웅덩이를 피하라"는 별도의 규칙을 추가할 수도 있겠지만, 이제 "물웅덩이를 지나갈 것인가, 반대 차선으로 넘어갈 것인가"라는 작은 트롤리 딜레마를 해결해야 합니다. 이는 단순히 두 가지 조건뿐만 아니라 반대편에 차가 오는지, 차가 없더라도 시야가 ...
