24~25년 로봇 AI 분야 논문 투자자 관점에서 리뷰

24~25년 로봇 AI 분야 논문 투자자 관점에서 리뷰

avatar
ink
2025.12.13조회수 51회

노트북 LM 사용

영상 출처 : https://www.youtube.com/watch?v=8V2a8Ty5-yk

Physical AI 핵심 논문 14편 리뷰 | 2025년까지의 기술 흐름 총정리


제시된 핵심 논문 리뷰 자료는 2024년부터 2025년까지 로봇 AI 분야에서 일어난 패러다임의 완전한 전환을 조명하고 있습니다. 투자자 관점에서 볼 때, 이 기술적 진보는 로봇이 연구실을 넘어 실제 현장에 투입되어 상업적으로 개화할 수 있는 실용성을 확보했음을 시사합니다.


로봇 섹터 투자자가 주목해야 할 핵심 논문별 기술 발전과 그 의미를 네 가지 주요 투자 관점으로 정리


I. 기술적 토대 확립: 일반성 및 세계관 확보 (2024년)

초기 모델들은 로봇 AI가 언어 모델 아키텍처를 통해 제어될 수 있는 기술적 가능성을 입증했습니다.

  • RT1 & RT2: 로봇 제어를 정교한 수식 대신 트랜스포머에 넣어 다음 행동을 예측하게 만든 획기적인 시도였습니다. 특히 RT2는 이미 인터넷 지식을 학습한 거대 시각 언어 모델(VLM)에 로봇을 연결하여, 로봇이 맥락과 의미를 이해하고 세계 지식을 동원해 동작하는 시맨틱 기반 패러다임 변화

  • 옥토 (Octo) 및 오픈 VLA (Open VLA): 수십 종의 로봇 데이터를 통합한 범용 정책(General Policy) 개념을 도입했습니다. 이는 로봇마다 따로 학습해야 했던 비효율성을 해소하고, 하나의 모델이 다양한 플랫폼을 제어할 수 있는 확장성의 기반을 마련했습니다. 특히 오픈 VLA는 행동을 이산적인 행동 토큰으로 변환하는 방식을 표준화하여, 7B 모델 크기로 거대 모델(RT2X) 수준의 성능을 달성하며 모델 효율성을 입증했습니다.

II. 상업적 안정성 확보: 정밀 제어 및 장기 계획 (2025년 변곡점)

단순히 모델 규모를 키우는 한계를 벗어나, 실제 산업 현장에서 필수적인 정밀도와 안정성을 확보하는 방향으로 아키텍처 혁신이 일어났습니다.


1) 파이제로 (PiZero): 토큰 기반 VLA의 한계였던 고주파 제어 및 연속적인 물리 제어의 품질과 안정성을 획기적으로 개선했습니다,. 기존 디퓨전 모델 대신 플로우 매칭 기반의 결정론적 생성 방식을 도입하여,연속적인 액션 벡터를 직접 생성하며 제어 자체의 품질을 끌어올렸습니다

  • 해결한 문제: 기존의 VLA 모델들은 행동을 '단어'처럼 이산적인 토큰으로 나누어 생성했기 때문에, 로봇 팔을 미세하게 움직여야 하는 정밀한 연속 제어나, 긴 시간 동안 끊김 없이 동작해야 하는 실시간 제어에 어려움이 있었습니다,. 이는 마치 로봇이 움직일 때마다 '뚝, 뚝, 뚝' 끊기는 것처럼 보일 수 있습니다.

  • 핵심 기술 (플로우 매칭): 파이제로는 복잡한 확률 분포를 여러 번의 예측(디노이징)을 통해 찾는 기존 방식(디퓨전) 대신, '플로우 매칭'이라는 결정론적 생성 방식을 사용했습니다,. 이는 마치 노이즈(오류)에서 시작하여 목표 동작까지 가는 전체 경로를 처음부터 설계해 두고, 그 설계된 흐름(벡터장)을 따라 움직이는 ...

회원가입만 해도
이 글을 무료로 읽을 수 있어요.

이미 계정이 있으신가요?로그인하기
댓글 0
avatar
ink
구독자 93명구독중 9명
Rationale 지속 가능한 투자