휴머노이드는 어디서, 어떻게 배울 것인가




(AI를 활용하여 작성한 글입니다)
지난 글 : https://www.valley.town/space/@kavalan/articles/69f9cd106500861ea9e974f0
앞선 글에서는 휴머노이드를 단순히 사람처럼 생긴 로봇이 아니라, 사람이 만든 공간과 노동 시장, 그리고 인간 행동 데이터에 접속하기 위한 물리적 인터페이스로 정리했습니다. 휴머노이드가 사람의 형태를 택하는 이유는 낭만이나 SF적 상상력 때문이 아닙니다. 사람이 만든 세계에 들어가고, 사람이 쓰는 도구를 다루며, 사람의 행동 데이터를 학습에 활용하기 위해서입니다.
이번 글에서 다룰 질문은 조금 더 구체적입니다. 각 업체는 휴머노이드를 어떻게 학습시키려 하고 있을까요?
휴머노이드의 완성은 하드웨어를 잘 만드는 것만으로 끝나지 않습니다. 로봇이 사람의 공간에서 보고, 이해하고, 움직이고, 실패하고, 다시 배우는 루프를 만들어야 합니다. 결국 중요한 것은 로봇을 어디에 먼저 파느냐보다, 어떤 데이터를 모으고, 그 데이터를 어떤 모델에 넣고, 실제 환경에서 어떻게 검증하느냐입니다.
먼저 Figure를 보겠습니다. Figure를 단순히 Figure 02나 Figure 03 같은 하드웨어 회사로만 보면 부족합니다. Figure의 중심에는 Helix가 있습니다.
Figure가 공개한 Helix는 Vision-Language-Action 모델입니다. 쉽게 말하면 로봇이 카메라로 주변 환경을 보고, 사람의 언어 지시를 이해한 뒤, 이를 실제 손·팔·몸통의 움직임으로 바꾸는 모델입니다. Figure는 Helix가 인식, 언어 이해, 학습 기반 제어를 하나로 통합한 generalist VLA 모델이며, 손목, 몸통, 머리, 개별 손가락까지 포함한 휴머노이드 상체 전체를 고속 연속 제어한다고 설명합니다.
이것이 Figure 전략의 핵심입니다. 휴머노이드가 가정이나 산업 현장에서 유용해지려면 사람이 매번 작업을 프로그래밍할 수 없습니다. “이 컵을 집어”, “서랍에 넣어”, “옆 로봇에게 건네줘” 같은 자연어 지시를 이해하고, 처음 보는 물체에도 대응해야 합니다. Figure는 Helix가 하나의 신경망 가중치로 물건 집기, 물건 놓기, 서랍과 냉장고 조작, 로봇 간 협업까지 수행할 수 있다고 설명합니다.

(FigureAI)
이 이미지는 Figure가 Helix를 왜 중요하게 보는지 잘 보여줍니다. 기존 로봇 조작 방식에서는 새로운 행동을 만들 때 전문가가 직접 규칙을 짜거나, 많은 시연 데이터를 다시 모아야 했습니다. 반면 Figure는 Helix를 통해 새로운 행동을 언어로 지정할 수 있는 구조를 만들겠다고 주장합니다.
Helix의 구조도 흥미롭습니다. Figure는 Helix를 System 1과 System 2로 나눠 설명합니다. System 2는 장면과 언어를 이해하는 비교적 느린 시스템입니다. 인터넷 규모 데이터로 사전학습된 VLM을 기반으로, 로봇이 보고 있는 장면과 사용자의 명령을 해석합니다. 반면 System 1은 빠른 반응형 visuomotor policy입니다. System 2가 만든 의미 표현을 받아 실제 손, 손가락, 몸통, 머리 움직임을 200Hz로 생성합니다. 쉽게 말하면 System 2가 “무엇을 해야 하는지”를 판단하고, System 1이 “몸을 어떻게 움직일지”를 실행합니다.

(FigureAI)
데이터 전략도 Helix와 직접 연결됩니다. Figure는 Helix 학습에 약 500시간의 고품질 multi-robot, multi-operator teleoperation 데이터를 사용했다고 밝혔습니다. 여기서 Teleoperation은 단순한 원격조작이 아닙니다. 사람이 로봇을 움직이는 동안 로봇이 본 장면, 로봇의 상태, 손과 팔의 움직임, 작업 결과가 함께 기록됩니다. 이 데이터는 Helix가 “언어 지시를 실제 휴머노이드 몸의 움직임으로 바꾸는 법”을 배우는 재료가 됩니다. Figure는 또 비디오 클립을 보고 “이 행동을 시키려면 어떤 지시를 내렸을까”를 VLM이 자동으로 라벨링하는 방식도 사용합니다.
그런데 Figure의 학습 전략은 로봇 데이터에만 머물지 않습니다. Project Go-Big에서는 인간의 1인칭 행동 영상을 Helix 학습에 활용하겠다고 밝혔습니다. Figure는 로보틱스에는 ImageNet이나 YouTube처럼 대규모 행동 데이터셋이 부족하다고 봅니다. 휴머노이드가 인간과 비슷한 시점과 운동 구조를 갖기 때문에, 일상적인 인간 영상에서 로봇 행동으로 지식을 전이할 수 있다는 설명입니다. Brookfield와의 파트너십을 통해 주거, 오피스, 물류 공간에서 인간 행동 데이터를 수집하려는 계획도 공개했습니다. 이 부분은 1편의 내용와 이어집니다. 휴머노이드가 사람 형태를 택하는 이유는 사람처럼 보이기 위해서가 아닙니다. 사람의 공간에 들어가고, 사람의 도구를 쓰고, 사람의 행동 데이터를 학습에 활용하기 위해서입니다. Figure는 이 논리를 가장 적극적으로 밀어붙이는 회사에 가깝습니다.
결국 Figure는 휴머노이드 하드웨어 회사라기보다, Helix를 중심으로 로봇의 몸과 두뇌, 데이터를 함께 묶으려는 풀스택 피지컬 AI 회사에 가깝습니다. 성공한다면 강력한 전략입니다. 다만 난도도 높습니다. 하드웨어, 모델, 데이터, 가정용 안전성까지 함께 풀어야 하기 때문입니다.
1X는 사용자가 처음 언급한 “기기를 먼저 배포하고, 데이터를 쌓아 업데이트한다”는 전략에 가장 가까운 회사입니다. 다만 이 전략을 단순한 선판매나 소비자 시장 진입으로만 보면 부족합니다. 1X의 핵심은 가정이라는 비정형 환경을 학습 데이터의 원천으로 삼으려는 시도입니다.
1X는 NEO를 가정용 휴머노이드로 전면에 세웁니다. 공장이나 물류센터가 아니라 집입니다. 1X는 NEO가 집안의 지루하고 반복적인 일을 맡아 사용자의 시간을 돌려주는 로봇이라고 설명합니다. 사용자가 집안일 목록을 주거나 시간을 예약하면, NEO가 청소, 정리, 빨래 접기, 선반 정리 같은 작업을 수행할 수 있다고 소개합니다.

(1X)
핵심은 Expert Mode입니다. 1X는 NEO가 기본적으로 자율 동작하지만, 아직 모르는 집안일은 사용자가 1X Expert를 예약해 도움을 받을 수 있고, 그 과정에서 NEO가 작업을 수행하면서 배운다고 설명합니다. 복잡한 작업에 대해서는 Expert가 원격으로 감독할 수 있으며, 모바일 앱과 VR 기기를 통한 Remote Control도 가능하다고 설명합니다. 이 구조에서 사람의 개입은 단순한 대행이 아닙니다. 전문가가 로봇을 감독하거나 조작하는 과정에서 가정 내 작업 데이터가 쌓이고, 이 데이터는 이후 NEO가 ...

기업들의 휴머노이드 접근 전략을 한눈에 볼 수 있어서, 유용했습니다. 감사합니다!




