DeepSeek이 RL 만으로 o1 수준의 성능을 지닌 LLM을 개발 한 것을 보며 Tesla에 대한 우려가 생겼습니다.
이는 LLM 의 post-training과 자율주행의 학습과정이 유사하기 때문입니다.
LLM은 'self-supervised learning(SSL, 자기 지도 학습)'을 통해 인터넷 스케일 데이터에서 스스로 패턴을 찾습니다. 여기까지가 pre-training이고, 일종의 지식 습득과정입니다.
이후 'supervised fine-tuning(SFT, 지도 미세 조정)' 단계에서 인간의 예제를 보며 '일 처리 방식'을 배웁니다.
마지막으로 'reinforcement learning(RL, 강화학습)' 을 통해 추론 성능을 높입니다.
자율주행은 크게 perception - planning 으로 나눌 수 있습니다.
주행 영상을 바탕으로 주변 환경을 인지하는 perception영역을 pre-train 하고,
다음으로 영상과 동기화된 인간의 차량 제어 ...



