

인공지능(AI)의 기술 발전은 유래를 찾아보기 힘들 정도로 빠른 속도로 진화되고 있습니다. 현재 인공지능 혁신을 이끌어 낸 것은 단연 2017년에 발표된 Transformer 알고리즘을 이야기할 수 있습니다. 당시 구글에서는 'Attention is All You Need'라는 논문을 발표하며 이전까지 자연어 처리에 주로 사용되던 RNN(Recurrent Neaural Network) 기반 모델의 한계를 지적하고, 어텐션 메커니즘만을 사용하는 새로운 모델을 제시했습니다.

트랜스포머 모델의 핵심은 어탠션 'Attention' 입니다. 어텐션은 마치 사람이 문장을 읽을 때 중요한 단어에 집중하는 것처럼, 모델이 입력 문장에서 중요한 부분에 집중하여 정보를 처리하도록 하는 메커니즘입니다. 트랜스포머는 입력 문장을 분석하여 각 단어의 의미를 담은 벡터로 변환하는 인코더 부분과, 인코더에서 생성된 벡터를 바탕으로 번역된 문장이나 요약된 문장을 생성하는 디코더 부분으로 구성됩니다.
어텐션은 쿼리(Queary), 키(Key), 값(Value) 이 세가지 요소를 사용합니다.
쿼리는 현재 집중해야 할 단어입니다.
키는 문장 내 다른 모든 단어입니다.
값은 각 키에 해당하는 정보입니다.
어텐션 메커니즘은 쿼리와 각 키의 유사도를 계산하여, 유사도가 높은 키에 해당하는 값에 더 큰 가중치를 부여합니다. 이렇게 하면 쿼리와 관련된 정보에 더 집중하여 문맥을 더 잘 이해할 수 있습니다. 그러나 트랜스포머 알고리즘에는 한계가 존재하였는데요, 긴 문장이나 문서를 다룰 때 앞부분의 정보를 잊어버리거나, 전체 맥락을 파악하는 못하는 경우가 발생하였습니다. 그 이유는 아래 세 가지로 이야기 할 수 있습니다.
제한된 Context Window: 트랜스포머 알고리즘은 입력 데이터를 일정한 크기의 'Window'로 나누어 처리합니다. 이 Window의 크기가 제한되어 있기 때문에 긴 문장이나 문서를 처리할 때 앞부분의 정보가 Window로 밀려나 잊혀질 수 있습니다.
어텐션 메카니즘의 한계: 트랜스포머의 핵심 기술인 어텐션 메커니즘은 문장 내 모든 단어 간의 관계를 파악하여 문맥을 이해합니다. 하지만 문장이 길어질수록 단어 간 관계가 복잡해지고, 어텐션 메커니즘이 모든 관계를 정확하게 파악하기 어려워집니다.
계산 복잡성: 어텐션 메커니즘은 계산량이 많기 때문에 긴 문장을 처리할 때 시간이 오래 걸리고 메모리 사용량도 증가합니다. 이는 트랜스포머 모델의 학습 속도를 늦추고, 더 큰 컨텍스트 창을 사용하기 어렵게 만듭니다.
결론적으로 트랜스포머의 출력은 Context Window 내 토큰 간 직접적인 의존성에만 기반하여 조건부로 생성됩니다. 이러한 의존성의 정확한 모델링은 맥락 길이에 따라 ...

감사합니다. 이런 보물 브로그가...!!

헛.. 스스로 공부할겸 작성한 포스팅을 소중히 봐주시니 감사합니다!

어제 안될공학 유튜브에 올라온 내용이네요! 직접 논문까지 뜯어보신다니 대단하십니다^^

네 안될공학님 유튜브와 여러 매체를 통해 접한 새로운 알고리즘에 대해 호기심이 생겨 공부했습니다! ㅎㅎ

오~ 감사히 잘 읽었습니다. 저도 안될공학에서 본 내용이긴 한데 이렇게 읽으니 한결 이해에 도움이 되었습니다. 감사합니다.

좋게 봐주셔서 감사합니다!

닭좌 링크타고 왔습니다. 유익한 글 감사합니다!

감사합니다!

감사합니다. 인간의 기억 방식에 영향을 받아 문제를 해결하는 방법이 너무 신기하고 재밌네요.

동의합니다. 오히려 인공지능 알고리즘에 대해 공부하다가 저는 새롭게 인간이 어떤 식으로 기억을 관리하고 추론하는지에 대해 생각해보았습니다.

좋은 글 잘 봤습니다!