Figure AI에서 새로운 휴머노이드용 AI Helix를 공개하였습니다. 영상을 꼭 한번 보길 추천합니다.
이는 Vision language model(VLM)과 Action expert가 결합된 VLA 모델 입니다.

VLM(System 2)은 인간의 요청, 카메라 입력을 바탕으로 업무와 환경을 이해하고 자신이 해야 할 행동 계획을 만듭니다.
Action Expert(System 1)는 정해진 계획을 수행하기 위해 각 관절을 제어합니다. 자유도가 16이나 되는 복잡한 손의 움직임을 200Hz 로 제어합니다. Transformer를 이용해 20Hz 단위로 path planning을 하고 하위단은 MPC를 쓰는 것으로 추정됩니다.
(System1, System2, Reflex 네트워크 구조까지 인간을 모방했다는 점이 인상적입니다. )

(라이브 데모가 아니므로 편집이 있습니다만 )성능은 놀랍습니다.
데모가 잘 설계 된 덕분에 다음과 같은 사실을 확인할 수 있습니다.
기본적으로 세상에 대한 이해 (어떤 것을 냉장 보관하고, 어떤 것을 밖에 보관하는지)가 있습니다.
다양한 형태와 크기의 물체, deformable한 물체를 쉽게 잡습니다. 물체의 형태와 무게에 따라 다른 파지전략을 사용합니다.
사전 ...





