프리미엄
예측대회
투자분석
아카데미
커뮤니티
로그인Valley AI 시작하기시작하기
Valley Space인기
Situational Awareness: the decade ahead
Deep Dive Tech기술 분석

Situational Awareness: the decade ahead

avatar
BSPK
2024.11.24조회수 32회
avatar
BSPK
구독자 496명구독중 9명
전자전기공학 박사, AI 연구자를 거쳐 전략기획 업무를 합니다. 기술의 발전이 가져올 세상의 변화를 먼저 포착하고 전달하고자 합니다.

핵심 내용 요약

본 문서의 핵심은 AI에 급격한 발전과 파급에 대해 사회적 인식과 준비가 미비함을 알리고 경고하는 것에 있습니다.

  • 해당 문서에서 AGI는 대학 졸업생과 유사한 수준의 인공지능을, Superintelligence는 인간의 모든 지적 능력을 초월하여 인간이 이해하거나 통제하기 어려운 수준의 인공지능을 의미

AI 기술 전망 문제에 있어 저자의 발언이 파급력을 가지는 이유를 설명하고자 약력을 추가합니다.


AI 기술의 현황 및 향후 2~3년간 전망에 대한 프레임워크를 다루는 Chapter1이 가장 중요합니다. Chapter 2 이후는 AI가 인간의 지적 능력을 초월한 시점에서 발생할 문제를 다룹니다. 따라서 본 요약자료는 Chapter1 위주로 작성되었습니다.

  • 특히, OOMs과 Unhobbling 개념이 중요합니다.

저자 약력

forourposterity.com

레오폴드 애쉔브레너(Leopold Aschenbrenner)는 통계, 수리, 경제학 전공으로 21년 19세에 콜롬비아 대학을 수석졸업하고, 23년까지 옥스퍼드 대학교의 글로벌 프라이어리티 연구소(Global Priorities Institute)에서 장기 경제 성장에 대한 연구를 수행하였습니다. 이후 OpenAI의 핵심 맴버인 일리아 슈츠케버(Ilya Sutskever)가 이끌고 있던 초정렬(Superalignment) 팀에 입사하고 약 1년간 근무하며 Superintelligence(초지능)AI가 인간의 가치와 목표에 부합하도록 동작하도록 보장하는 연구를 수행하였습니다. 주요 기여로 약한 감독(weak supervision)을 통해 강력한 AI 모델을 제어하는 방법론인 약-강 정렬(Weak-to-Strong Generalization) 접근법이 있습니다.

  • 간단하게 설명해서 초지능의 입장에서 인간은 '부족한 관리자' 입니다. 부족한 관리자의 지도는 초지능의 성능을 하락 시키거나 인간의 의도와 다른 행동을 유발하게 됩니다. 애쉔브레너는 Bootstrapping이라는 통계학 기법을 바탕으로 강력한 generalization 을 이용하여 모델이 인간의 의도대로 행동하게 유도 하였습니다.

이후 OpenAI의 보안 조치가 "심각하게 불충분하다"고 판단하고, 모델 가중치나 알고리즘 비밀이 외부 행위자(특히 중국 정부와 연관된 조직)에게 도난당할 위험성을 경고하는 메모를 작성하여 몇몇 동료와 외부 연구자들에게 공유 하였습니다. 해당 사유로 24년 4월 해고 됩니다. (5월 Superalignment 팀 해산, 팀 리더인 Ilya Sutskever와 Jan Leike 퇴사)


24년 6월 인공지능(AI)의 연구의 최전선에서 지켜본 경험을 바탕으로 향후 10년간 인공지능의 급격한 발전, 특히 범용 인공지능(AGI) 및 초지능으로의 전환이 임박하였고 AGI를 둘러싼 기술적, 경제적, 지정학적 영향을 예측한 "Situational Awareness: the decade ahead" 를 공개 하였습니다. 공식적으로 초정렬팀 리더였던 Ilya Sutskever에게 헌정된 문서입니다.




Situational Awareness: the decade ahead

내용 요약

지난 1년 동안, AI 개발 경쟁은 급격히 가속화되며 100억 달러 규모의 컴퓨팅 클러스터에서 조 단위 클러스터로 확장되고 있습니다. 기업들은 10년간 사용할 전력 계약과 변압기를 확보하기 위해 치열하게 경쟁하고 있으며, 미국 산업은 전례 없는 수준의 동원 태세를 갖추고 있습니다. 이로 인해 미국의 전력 생산은 수십 퍼센트 증가할 것이며, 수백만 개의 GPU가 가동될 예정입니다. AGI(범용 인공지능) 경쟁이 본격적으로 시작되었습니다.


2025~2026년에는 기계가 대학 졸업생을 능가하는 지능을 갖게 되고, 10년이 끝날 무렵에는 인간을 초월한 초지능에 도달할 것입니다. 이 과정에서 국가 안보와 관련된 대규모 프로젝트가 시작될 가능성이 높으며, 운이 좋으면 중국과의 경쟁이 될 것이지만, 운이 나쁘면 전쟁으로 이어질 수도 있습니다.


현재 많은 사람들이 AI에 대해 이야기하고 있지만, 대부분은 그 파급력을 제대로 이해하지 못하고 있습니다. 일부 전문가들은 여전히 AI를 단순한 "다음 단어 예측" 정도로 간주하거나 기존 인터넷 기술 수준의 변화로만 인식하고 있습니다. 그러나 소수의 사람들(주로 샌프란시스코와 AI 연구소에 있는 수백 명)은 이러한 상황을 정확히 파악하고 있으며, 과거 AI 발전을 예측했던 이들입니다. 이들이 향후 몇 년간의 변화를 얼마나 정확히 예측할지는 미지수지만, 그들은 역사적인 인물들(예: 실라드, 오펜하이머)과 비교될 만큼 중요한 역할을 할 가능성이 있습니다. AGI, Superintelligence 개발을 맨하튼 프로젝트에 비견할 만한 파급력을 지닐 것이며, 국가 패권의 핵심이 될 것입니다.



1. From GPT-4 to AGI: Counting the OOMs


1-1 OOMs

저자는 지수적 성능 증가를 의미하는 Order of Magnitudes (OOMs) 개념을 이용하여 GPT-4에서 AGI 수준의 AI도달까지 2~3년내 도달 가능함을 주장합니다.

  • OOD 1증가 = 성능 10배 향상

현 상황(GPT-4 ~= 고등학생 수준)을 기준으로 앞으로 ~5 OOMs (10만배) 성능 향상시 AGI가 구현될...

회원가입만 해도
이 글을 무료로 읽을 수 있어요.

Basic 7일 무료 체험 시작하기
이미 계정이 있으신가요?로그인하기
댓글 1개
기술 분석 카테고리의 다른글

Alphafold3

[개요] 알파폴드 3(AlphaFold 3)에 대한 논문은 2024년 5월 국제 학술지 네이처(Nature)에 게재되었으며, 이 모델은 생명체의 거의 모든 생체분자의 구조와 상호작용을 예측하는 데 탁월한 성능을 보입니다. 알파폴드 2에서 크게 발전한 이 모델은 단백질뿐만 아니라 DNA, RNA, 리간드와 같은 다양한 생체분자의 구조를 예측할 수 있으며, 이들 간의 상호작용도 모델링할 수 있습니다. 특히 분자 간 상호작용 예측에서 기존 방법 대비 최소 50% 이상의 정확도를 달성하였고, 일부 중요한 상호작용에서는 정확도가 두 배로 향상되었습니다. 알파폴드 3는 신약 개발과 질병 치료 연구에 중요한 도구로 자리 잡고 있습니다. 특히 단백질과 약물 후보 물질(리간드)의 결합을 정확하게 예측하여 신약 설계 과정을 가속화할 수 있습니다. 또한 항체-항원 상호작용과 같은 면역 반응 연구에도 활용될 수 있어, 암 치료제나 백신 개발에도 기여할 것으로 기대됩니다. 리간드는 생체분자와 결합하여 특정 기능을 수행하는 물질을 말합니다. 주로 단백질, DNA, RNA 등과 결합하여 신호를 전달하거나 생리적 반응을 유도합니다. 알파폴드 3는 기존 알파폴드 2의 Evoformer 모듈을 개선하고, AI 이미지 생성기에서 사용하는 확산 네트워크(diffusion network)를 적용하여 입력된 분자의 원자 좌표를 점진적으로 정확한 구조로 변환합니다. 이 과정은 원자 구름에서 시작해 여러 단계를 거쳐 최종적으로 가장 정확한 분자 구조로 수렴하는 방식입니다. [모델구조] 알파폴드 3(AlphaFold 3)의 구조는 입력 준비(Input Preparation), 표현 학습(Representation Learning), 그리고 구조 예측(Structure Prediction)의 세 가지 주요 단계로 나눌 수 있습니다. 1. 입력 준비 (Input Preparation) 입력 준비 단계에서 Input Embedder는 모델에서 입력된 분자 데이터를 처리하여 모델이 이해할 수 있는 수치적 표현으로 변환하는 중요한 역할을 합니다. 이 과정은 모델이 분자의 구조와 상호작용을 정확하게 예측할 수 있도록 준비하는 첫 번째 단계입니다. Input Embedder의 주요 역할 분자 정보 임베딩: Input Embedder는 단백질, 핵산(DNA, RNA), 리간드(작은 분자)와 같은 다양한 생체분자의 서열 정보를 받아들여 이를 수치적 텐서로 변환합니다. 이때 각 구성 요소는 다음과 같은 방식으로 처리됩니다: 단백질: 아미노산 단위로 임베딩 핵산(DNA/RNA): 뉴클레오타이드 단위로 임베딩 리간드: 원자 단위로 임베딩 이러한 방식으로 각 분자의 구성 요소가 고유한 벡터로 표현되며, 이를 통해 모델은 다양한 분자의 구조적 특징을 학습할 수 있습니다. 구조적 정보 처리: Input Embedder는 단순히 서열 정보를 수치화하는 것뿐만 아니라, 화학적 구조 정보도 함께 처리합니다. 예를 들어, 원자 간의 결합이나 분자의 3차원적인 배열과 같은 정보도 포함됩니다. 이를 통해 모델은 각 원자나 분자 단위가 어떻게 상호작용하는지 더 잘 이해할 수 있습니다. Attention 메커니즘 적용: Input Embedder는 입력된 데이터를 처리할 때 어텐션 메커니즘을 사용하여 각 원자나 분자 간의 상호작용에 주목합니다. 이를 통해 중요한 분자 간 관계를 포착하고, 이후 단계에서 더 정확한 예측을 할 수 있도록 돕습니다. dSingle 및 Pair Representation 생성: Input Embedder는 입력된 데이터를 기반으로 두 가지 주요 표현을 생성합니다: Single Representation: 개별 아미노산, 뉴클레오타이드 또는 원자에 대한 정보를 담고 있습니다. Pair Representation: 두 개의 아미노산 또는 원자 간의 관계를 나타내며, 이후 단계에서 상호작용을 예측하는 데 중요한 역할을 합니다. 이러한 표현들은 이후 단계에서 구조 예측에 사용되며, 특히 Pair Representation은 분자 간의 복잡한 상호작용을 모델링하는 데 필수적입니다. 결론적으로, Input Embedder는 알파폴드 3에서 입력된 생체분자를 모델이 이해할 수 있는 형태로 변환하고, 중요한 구조적 및 상호작용 정보를 추출하여 이후 단계에서 정확한 예측이 가능하도록 돕는 핵심 구성 요소입니다. 2. 표현 학습 (Representation Learning) Representation Learning은 알파폴드 3에서 입력된 분자의 서열 및 구조 정보를 더 높은 ...
기술 분석
2024. 11. 10
0
0
18
Alphafold3

AlphaFold2

[개요] AlphaFold2는 DeepMind에서 개발한 인공지능(AI) 시스템으로, 단백질의 아미노산 서열로부터 3차원(3D) 구조를 원자 수준의 정확도로 예측할 수 있습니다. 이는 50년 동안 해결되지 않았던 단백질 구조 예측 문제에 대한 획기적인 진전을 가져왔으며, 생물학 및 의학 분야에서 큰 주목을 받고 있습니다. AlphaFold2는 특히 다중 서열 정렬(MSA)과 딥러닝을 활용하여 단백질의 3D 구조를 예측하는데, 이 과정에서 단백질 간의 진화적 정보를 반영합니다. AlphaFold2는 2020년 CASP14(단백질 구조 예측 대회)에서 우승하며 그 성능을 입증했으며, 이후 전 세계적으로 2억 개 이상의 단백질 구조를 예측하여 공개했습니다. 이 시스템은 약물 개발, 단백질 설계, 단백질 기능 예측 등 다양한 연구 분야에 응용되고 있으며, 특히 질병 관련 단백질 연구와 진단 도구 개발에 중요한 역할을 하고 있습니다. [모델 구조] AlphaFold2의 모델 구조는 단백질의 3차원 구조를 예측하기 위해 설계된 고도로 복잡한 딥러닝 아키텍처입니다. 이 모델은 크게 세 가지 주요 모듈로 나눌 수 있습니다: 입력 처리 모듈, Evoformer 모듈, 그리고 Structure 모듈입니다. 각 모듈은 단백질 서열로부터 최종 3D 구조를 예측하는 데 중요한 역할을 합니다. 모델 동작 방식 요약 AlphaFold2는 다음과 같은 순서로 작동합니다: 입력 처리 모듈: 입력된 아미노산 서열에서 MSA와 템플릿 정보를 생성. Evoformer 모듈: MSA와 쌍 표현을 반복적으로 업데이트하면서 단백질 내 잔기 간 상호작용을 반복 업데이. Structure 모듈: 최종 3D 구조를 예측하고 재활용 과정을 통해 이를 개선. 이러한 과정에서 AlphaFold2는 전통적인 물리 기반 모델과 달리, 딥러닝을 통해 진화적 정보와 공간적 제약을 통합하여 매우 정확한 구조 예측을 수행합니다. *잔기(Residue): 단백질을 구성하는 아미노산을 의미; 단백질은 아미노산들이 길게 연결된 폴리펩타이드 사슬로 이루어져 있는데, 이때 각각의 아미노산이 단백질 구조 내에서 하나의 단위로 남아 있는 것을 잔기라고 부름 1. 입력 처리 모듈 이 단계에서는 단백질의 아미노산 서열이 입력으로 제공됩니다. AlphaFold2는 이 서열을 기반으로 다중 서열 정렬(MSA)과 템플릿 정보를 생성합니다. MSA는 주어진 단백질과 유사한 다른 생물체의 단백질 서열을 정렬하여, 진화적 정보를 통해 구조 예측에 도움을 줍니다. 또한, 기존에 알려진 단백질 구조 데이터를 템플릿으로 사용하여 예측을 보완합니다. 2. Evoformer 모듈 Evoformer는 AlphaFold2의 핵심 모듈로, MSA와 아미노산 간의 상호작용 정보를 학습하고 이를 반복적으로 업데이트합니다. Evoformer는 두 가지 주요 표현을 처리합니다: MSA representation: 입력으로 주어진 MSA는 여러 생물 종에서 유사한 단백질 서열을 정렬한 정보로, 각 아미노산 서열의 진화적 관계를 나타냄니다. 이 정보는 아미노산 간의 상호작용과 구조적 제약을 추론하는 데 중요한 역할을 합니다. pair representation: Pair Representation은 단백질 내 각 아미노산 잔기 간의 공간적 관계(거리 및 상호작용)를 나타내는 행렬입니다. 초기에는 주로 단백질 서열로부터 추정된 기본적인 공간적 정보를 포함하고 있습니다. Evoformer는 Axial Attention이라는 주의(attention) 메커니즘을 사용하여, MSA 내에서 아미노산 서열 간의 상호작용(세로 방향)과 잔기 간 상호작용(가로 방향)을 각각 처리합니다. 이를 통해 단백질 서열 내에서 중요한 정보가 무엇인지를 동적으로 학습하고, 이를 바탕으로 잔기 간의 물리적 관계를 예측할 수 있습니다 이 메커니즘은 특히 비인접한 잔기들 간의 관계를 동적으로 학습하는 데 유리하며, 이를 통해 단백질의 전체적인 접힘(folding) 과정을 예측할 수 있습니다. Evoformer는 48개의 블록으로 구성되어 있으며, 각 블록은 MSA와 쌍 표현을 반복적으로 업데이트하면서 점점 더 정확한 구조를 생성합니다. Evoformer는 MSA와 Pair Representation 간에 정보를 교환하는 메커니즘도 포함하고 있습니다. 예를 들어, Outer Product Mean Block은 MSA에서 얻은 진화적 정보를 바탕으로 Pair Representation을 업데이트하는 데 사용됩니다. 이는 진화적 ...
기술 분석
2024. 11. 09
2

Trick or treat, Atlas!

Boston Dynamics는 최근 "Atlas Goes Hands-On"이라는 제목의 새로운 영상을 공개하며, 휴머노이드 로봇인 Atlas의 고급 기능을 선보였습니다. 이 시연은 Toyota Research Institute(TRI)의 대형 행동 모델(LBMs)이 사용 된 것으로 예상 됩니다. https://bostondynamics.com/news/boston-dynamics-toyota-research-institute-announce-partnership-to-advance-robotics-research/ https://youtu.be/_rFqD1Np5P8?si=NEEbHUe-uYoBW8-B Atlas의 기술적 발전 최신 영상에서 Atlas는 인간의 개입 없이 컨테이너 사이를 이동하고 물체를 다루는 등의 작업을 자율적으로 수행합니다. 이는 비전, 힘, 자기 수용 ...
기술 분석
2024. 11. 05
0
0
6

Sparsh: Self-supervised touch representations for vision-based tactile sensing

Sparsh 개요 Meta의 Sparsh는 비전 기반 촉각 센서를 위한 자기 지도 학습(Self-supervised Learning, SSL) 모델을 제안하는 연구입니다. 촉각센서 정보를 이미지화 -> 이미지 자기지도학습 방식을 촉각에 적용 -> 촉각 자기지도학습 생성형 AI를 촉각 영역까지 확장하여 로봇의 인지 및 조작 능력을 대폭 향상 했다는 점에서 의의를 지닙니다. LLM: 언어 자기지도학습 JEPA: 영상 자기지도학습 Sparsh: 촉각 자기지도학습 촉각 센서(DIGIT, GelSight 등)는 로봇이 물체를 다룰 때 시각 정보만으로는 얻기 어려운 촉각 피드백을 제공하여 로봇 조작 능력을 크게 향상시킵니다. 그러나 기존의 접근 방식은 특정 작업과 센서에 맞춘 모델을 사용하며, 이러한 모델을 학습시키기 위해서는 많은 양의 라벨링된 데이터가 필요합니다. 이는 데이터 수집...
기술 분석
2024. 11. 05
0
0
22

Scaling AI for the Future of Autonomous Driving: The Role of End-to-End Multimodal Models

[요약] Waymo에서 멀티모달 LLM Gemini nano를 이용하여 자율주행을 구현하였고, 기존 Waymo 자율주행 모델인 Waymoformer 대비 우수한 성능을 보임 LLM의 reasoning 성능향상을 위해 사용되는 학습/프로프트 테크닉인 Chain of Thought 를 이용하여 차량 Path Planning을 구현함. Transformer 기반의 LLM의 언어 성능에 적용되던 Scaling law가 자율주행에도 적용 됨을 확인, 규모 경쟁이 발생할 가능성이 높음 End-to-End Multimodal Models: The Future of Autonomous Driving? The rapid evolution of AI has been nothing short of transformative, and its impact on industries like autonomous driving is becoming increasingly evident. A striking example is the shift towards End-to-End multimodal models for autonomous driving, a trand that has gained momentum thanks to companies like Tesla and Waymo. The ChatGPT Revolution and its Influence To understand how we arrived at this point, we need to revisit the rise of transformer-based models like OpenAI's ChatGPT. ChatGPT demonstrated the incredible potential of large language models (LLMs) to to process and generate human-like text by learning from vast amount of data. The success sparked a broader interest in applying similar architectures beyond natural language processing (NLP), including in fields like computer vision and robotics. Tesla took note of this paradigm shift. inspired by the success of transformer-based models in NLP, Tesla restructured its Full Self-Driving (FSD) system into an End-to-End model. However, instead of processing text, Tesla's model processes images from the cameras mounted on the vehicle. The goal? To generate driving path as output, replacing traditional rule-based systems with a more holistic approach that directly maps raw sensor data to driving actions. The Rise of End-to-End Multimodal Models While the concept of E2E models was gaining traction by late 2023, there was still limited clarity on the exact architectures being used by industry leaders. However, just before the end of 2024, Waymo made a significant contribution to this space by publishing a detailed paper on their End-to-End Multimodal Model for Autonomous Driving, known as EMMA EMMA represents a major leap forward in autonomous driving technology. Built on a ...
기술 분석
2024. 10. 31
1
0
42
AlphaFold2
Trick or treat, Atlas!
Sparsh: Self-supervised touch representations for vision-based tactile sensing
0
10
Scaling AI for the Future of Autonomous Driving: The Role of End-to-End Multimodal Models
avatar
앙꼬찐빵
2024.11.26

좋은 글 감사합니다. AI쪽에는 완전 무지랭이라 공유해주신 요약 정리를 바탕으로 원문도 한번 꼼꼼하게 봐야겠네요 ㅎㅎ