Alphafold3




알파폴드 3(AlphaFold 3)에 대한 논문은 2024년 5월 국제 학술지 네이처(Nature)에 게재되었으며, 이 모델은 생명체의 거의 모든 생체분자의 구조와 상호작용을 예측하는 데 탁월한 성능을 보입니다. 알파폴드 2에서 크게 발전한 이 모델은 단백질뿐만 아니라 DNA, RNA, 리간드와 같은 다양한 생체분자의 구조를 예측할 수 있으며, 이들 간의 상호작용도 모델링할 수 있습니다. 특히 분자 간 상호작용 예측에서 기존 방법 대비 최소 50% 이상의 정확도를 달성하였고, 일부 중요한 상호작용에서는 정확도가 두 배로 향상되었습니다.
알파폴드 3는 신약 개발과 질병 치료 연구에 중요한 도구로 자리 잡고 있습니다. 특히 단백질과 약물 후보 물질(리간드)의 결합을 정확하게 예측하여 신약 설계 과정을 가속화할 수 있습니다. 또한 항체-항원 상호작용과 같은 면역 반응 연구에도 활용될 수 있어, 암 치료제나 백신 개발에도 기여할 것으로 기대됩니다.
리간드는 생체분자와 결합하여 특정 기능을 수행하는 물질을 말합니다. 주로 단백질, DNA, RNA 등과 결합하여 신호를 전달하거나 생리적 반응을 유도합니다.
알파폴드 3는 기존 알파폴드 2의 Evoformer 모듈을 개선하고, AI 이미지 생성기에서 사용하는 확산 네트워크(diffusion network)를 적용하여 입력된 분자의 원자 좌표를 점진적으로 정확한 구조로 변환합니다. 이 과정은 원자 구름에서 시작해 여러 단계를 거쳐 최종적으로 가장 정확한 분자 구조로 수렴하는 방식입니다.

알파폴드 3(AlphaFold 3)의 구조는 입력 준비(Input Preparation), 표현 학습(Representation Learning), 그리고 구조 예측(Structure Prediction)의 세 가지 주요 단계로 나눌 수 있습니다.
입력 준비 단계에서 Input Embedder는 모델에서 입력된 분자 데이터를 처리하여 모델이 이해할 수 있는 수치적 표현으로 변환하는 중요한 역할을 합니다. 이 과정은 모델이 분자의 구조와 상호작용을 정확하게 예측할 수 있도록 준비하는 첫 번째 단계입니다.

분자 정보 임베딩: Input Embedder는 단백질, 핵산(DNA, RNA), 리간드(작은 분자)와 같은 다양한 생체분자의 서열 정보를 받아들여 이를 수치적 텐서로 변환합니다. 이때 각 구성 요소는 다음과 같은 방식으로 처리됩니다:
단백질: 아미노산 단위로 임베딩
핵산(DNA/RNA): 뉴클레오타이드 단위로 임베딩
리간드: 원자 단위로 임베딩
이러한 방식으로 각 분자의 구성 요소가 고유한 벡터로 표현되며, 이를 통해 모델은 다양한 분자의 구조적 특징을 학습할 수 있습니다.
구조적 정보 처리: Input Embedder는 단순히 서열 정보를 수치화하는 것뿐만 아니라, 화학적 구조 정보도 함께 처리합니다. 예를 들어, 원자 간의 결합이나 분자의 3차원적인 배열과 같은 정보도 포함됩니다. 이를 통해 모델은 각 원자나 분자 단위가 어떻게 상호작용하는지 더 잘 이해할 수 있습니다.
Attention 메커니즘 적용: Input Embedder는 입력된 데이터를 처리할 때 어텐션 메커니즘을 사용하여 각 원자나 분자 간의 상호작용에 주목합니다. 이를 통해 중요한 분자 간 관계를 포착하고, 이후 단계에서 더 정확한 예측을 할 수 있도록 돕습니다.
dSingle 및 Pair Representation 생성: Input Embedder는 입력된 데이터를 기반으로 두 가지 주요 표현을 생성합니다:
Single Representation: 개별 아미노산, 뉴클레오타이드 또는 원자에 대한 정보를 담고 있습니다.
Pair Representation: 두 개의 아미노산 또는 원자 간의 관계를 나타내며, 이후 단계에서 상호작용을 예측하는 데 중요한 역할을 합니다.
이러한 표현들은 이후 단계에서 구조 예측에 사용되며, 특히 Pair Representation은 분자 간의 복잡한 상호작용을 모델링하는 데 필수적입니다. 결론적으로, Input Embedder는 알파폴드 3에서 입력된 생체분자를 모델이 이해할 수 있는 형태로 변환하고, 중요한 구조적 및 상호작용 정보를 추출하여 이후 단계에서 정확한 예측이 가능하도록 돕는 핵심 구성 요소입니다.
Representation Learning은 알파폴드 3에서 입력된 분자의 서열 및 구조 정보를 더 높은 수준의 표현으로 변환하는 과정입니다. 이 단계는 입력 준비 단계에서 생성된 단일(single) ...



