정말 데이터가 문제일까? (feat. Yann LeCun)

비록 Geoffrey Hinton에게 AI 대부 타이틀을 뺏겼지만, 개인적으로 지금 AI를 이끌어 나가는 사람은 Yann LeCun이라고 생각합니다.

최근 로보틱스 AI에 대해 고민이 많던 차, LuCun의 발언을 듣고 떠오른 생각을 우선 간단하게 적어봅니다. 설 연휴동안 각각 아이디어에 대해 자세한 분석글을 작성해 보겠습니다.

인상적인 발언1 : 5년 내 LLM의 종말

인상적인 발언2: DeepSeek은 중국의 승리가 아니라 Open Source의 승리 (일단 DeepSeek이 이김)

우선 LLM의 한계에 대해서는 ValC 2412 매치에서 정리한 자료가 있어 아래 붙여 봅니다.

(https://www.valley.town/events/valuation-challenge/analysis/667faea30c8830975dfab97b)

1) chatGPT 이후 AI

chatGPT는 LLM 시대를 열었지만, 동시에 LLM의 한계를 알려 주었습니다. Yann LeCun이 Lex Fridman 인터뷰에서 이야기 하였듯 아직 LLM은 아직 높은 수준의 추론, 물리세계에 대한 이해, 장기적 기억능력, 계획 생성에서 큰 한계가 있습니다.
(출처:https://youtu.be/5t1vTLU7s40?si=yqa5HPRMVSmhnUeF)

LLM 이후 멀티모달에 대한 연구가 진행되고 gpt-4o를 비롯한 VLM(Vision Language Model)이 소개 되고 AI가 시각 정보도 잘 이해한다고 알려지게 되었지만 기술적으로 파고들면 조금 상황이 다릅니다.

VLM은 기본적으로 시각 정보라는 방대한 데이터를 언어라는 추상화된 정보로 치환하여 이해합니다. 이것은 마치 눈은 감은채 누군가 말로 설명하는 것만 들으면서 주변상황을 인지하는 것과 비슷합니다. 치환 과정에서 상당한 디테일이 사라지게 되고, 실제 세계에 대한 이해를 학습하기 어려워집니다. (참고: vision language models are blind https://arxiv.org/abs/2407.06581)

(출처: CLIP: https://github.com/openai/CLIP)

사람도 언어를 이용해서 사고 하는 것 아니야? 라고 생각 하실 수 있겠지만 그렇지 않습니다. 우리가 컵라면을 상상할때, 그것은 단어가 아니라 시각, 촉각, 미각, 청각과 같은 감각, 여러 기억들과 그것이 만들어낼 수 있는...

1) chatGPT 이후 AI

회원가입만 해도
이 글을 무료로 읽을 수 있어요.

리비안에 대한 생각

오히려 디플레가 걱정

Pirates of the RAG

Byte latent transformer를 보며

25년 목표

리비안에 대한 생각

오히려 디플레가 걱정

Pirates of the RAG

Byte latent transformer를 보며

25년 목표

정말 데이터가 문제일까? (feat. Yann LeCun)

1) chatGPT 이후 AI

회원가입만 해도이 글을 무료로 읽을 수 있어요.

리비안에 대한 생각

오히려 디플레가 걱정

Pirates of the RAG

Byte latent transformer를 보며

25년 목표

리비안에 대한 생각

오히려 디플레가 걱정

Pirates of the RAG

Byte latent transformer를 보며

25년 목표

회원가입만 해도
이 글을 무료로 읽을 수 있어요.