[Deep Dive Tech] Nvidia COSMOS, 이름이 너무 거창한거 아닌가?




Nvidia가 최근 CES2025에서 Cosmos, 혹은 World Foundation Model 이라는 거창한 AI모델을 발표했습니다.
언제나처럼 AI 관련해서는 '정확히 뭔지 모르겠는' 모델을 발표 하였는데요, 모델의 구조도 복잡하고 기능도 다양하여 한 번 정리해 보았습니다.
(참고: https://arxiv.org/html/2501.03575v1)
Nvidia에 따르면 Cosmos의 정의는 다음과 같습니다.
NVIDIA Cosmos™ is a platform of state-of-the-art generative world foundation models (WFM), advanced tokenizers, guardrails, and an accelerated data processing and curation pipeline built to accelerate the development of physical AI systems such as autonomous vehicles (AVs)and robots.
설명이 조금 복잡하지만 짧게 쓰자면 Cosmos는 Physical AI를 위한 생성형 AI 기반의 학습 플렛폼, WFM은 physical AI를 위한 pre-trained model입니다.
위 설명을 이해하려면 두가지 배경지식이 필요합니다. 1) 원래 로봇 학습을 어떻게 하는지, 2) pre-trained model이 뭔지.
1) 기본적으로 여기서 말하는 로봇학습은 강화학습 입니다. 강화학습이란, 반복시행과 보상을 통해 행동 '정책'을 학습 시키는 것입니다.
(강아지 '손' 이랑 비슷)

자세한 설명: link
직관적인 영상: https://youtu.be/fiQsmdwEGT8?si=rzz4vzcssKAlidke
2) pre-trained model은 말 그대로 사전학습 모델을 말합니다. GPT = generative pretrained transformer 에서 P가 사전학습되었다는 의미 입니다. 방대한 데이터로 시스템에 대한 이해는 충분히 시켜 놨는데, 아직 특정한 업무를 잘 할 수 있도록 교육은 ...



