

저는 평소 뉴스 분석을 AI가 해주는데 과연 AI가 해주는 분석만으로도 알파를 챙길 수 있을까? 라는 생각을 가졌지만, 이를 검증할 방법이 없어서 AI분석을 믿지 않았습니다.
그래서 그냥 AI를 좋은 툴로만 활용하고, AI의 추천은 별로 신뢰하지 않았죠. 이러던 와중에 제 유튜브 알고리즘이 영상 하나를 추천해 주더라고요
https://www.youtube.com/watch?v=NPOJTWCkY7w
뉴스 헤드라인 만으로 LLM이 주가를 예측하는 것에 관한 논문을 소개하고 있는 영상이었습니다.
그 논문 링크는 아래에 남겨두겠습니다.
논문 링크: https://arxiv.org/pdf/2304.07619.pdf
논문의 내용을 AI를 활용하여 설명해 보겠습니다.
본 보고서는 Alejandro Lopez-Lira와 Yuehua Tang의 논문 "Can ChatGPT Forecast Stock Price Movements? Return Predictability and Large Language Models"를 심층적으로 분석하여, 대규모 언어 모델(LLM)이 주식 시장 움직임을 예측하는 능력에 대한 포괄적인 이해를 제공합니다. 논문의 이론적 모델, 실증적 방법론, 주요 발견 및 금융 시장에 대한 광범위한 함의를 다루며, 이는 투자자, 규제기관, 그리고 시장 효율성 측면에서 LLM의 잠재력을 조명합니다.
최근 생성형 인공지능(Generative AI) 및 ChatGPT와 같은 대규모 언어 모델(LLM)은 전 세계적으로 급부상하며 변혁적인 영향력을 미치고 있습니다. 이러한 모델들은 원래 시퀀스에서 다음 단어를 예측하도록 훈련되었음에도 불구하고, 코딩과 같은 복잡한 작업에서 놀라운 숙련도를 보여주며 그 잠재력에 대한 광범위한 관심을 불러일으키고 있습니다. 그러나 금융 분야, 특히 뉴스 헤드라인을 사용하여 주식 가격 움직임을 예측하는 것과 같은 경제적 응용 분야에서의 LLM 잠재력은 아직 충분히 탐구되지 않았습니다.
본 연구는 LLM의 습득된 기술이 주식 가격 움직임을 예측하는 어려운 작업에까지 확장될 수 있다는 핵심 가설을 입증하고자 합니다. 나아가, LLM이 정보 처리 능력을 향상시켜 인간의 의사결정을 보완하고, 시장 비효율성을 잠재적으로 감소시키며, 다양한 경제 주체 간 정보 확산 역학을 변화시킬 수 있다는 이론적 결과도 제시합니다.
기존 연구들이 주로 지도 학습(supervised methods)에 의존하여 감성 분석을 수행한 것과 달리, 본 연구는 LLM이 명시적인 재무 훈련 없이도 수익률을 예측하는 능력을 평가한다는 점에서 차별화됩니다. 이는 LLM의 일반적인 언어 이해 능력이 금융 도메인으로 전이 학습될 수 있음을 시사합니다. 이러한 '즉시 사용 가능(off-the-shelf)' 능력은 전문적인 금융 지식이나 복잡한 모델 훈련 없이도 일반 투자자나 소규모 기관이 AI 기반 금융 분석에 접근할 수 있는 문턱을 크게 낮춥니다. 이는 금융 분석의 민주화를 촉진할 수 있으며, 소수의 숙련된 투자자에게만 유용했던 기존의 복잡한 방법론(예: Chen, Kelly, Xiu (2023)의 2단계 절차)과 대조됩니다. LLM의 범용성이 금융 시장에 미치는 영향은 단순히 예측력 향상을 넘어, 정보 확산의 속도와 방식, 그리고 시장 참여자들의 의사결정 구조 자체를 변화시킬 수 있음을 의미합니다. 이러한 변화는 규제기관이 AI 기술의 시장 내 역할에 대해 새로운 관점으로 접근해야 할 필요성을 제기합니다.
본 논문의 핵심 질문은 LLM이 주식 시장을 예측할 수 있는가, 그렇다면 어떻게, 그리고 어떤 함의를 가지는가입니다. 연구 결과, LLM이 뉴스 헤드라인을 사용하여 주식 가격 움직임을 예측할 수 있음을 입증했습니다. 특히, ChatGPT 점수가 표본 외(out-of-sample) 일일 주식 수익률을 유의미하게 예측하며, 전통적인 방법을 능가함을 발견했습니다. 예측력은 소형주 및 부정적인 뉴스에서 더 강하게 나타났습니다. 또한, 이론적 모델을 통해 AI 능력의 임계값이 존재하며, LLM 채택이 시장 효율성을 향상시킬 수 있음을 예측하고 실증적으로 검증했습니다. 마지막으로, LLM의 추론 과정을 평가하는 해석 가능성 프레임워크를 도입하여 AI 투명성 및 경제적 의사결정에 기여했습니다.
본 연구는 LLM 기술, 정보 처리 제약, 차익거래 한계를 통합한 새로운 이론적 모델을 개발하여 LLM의 예측력을 설명하고 시장 역학에 미치는 잠재적 영향을 탐구합니다.
본 모델은 Grundy and McNichols (1989) 및 Brown and Jennings (1989)의 다기간 잡음 있는 합리적 기대 프레임워크를 기반으로 합니다. 투자자를 '주의 깊은(attentive)' 투자자와 '부주의한(inattentive)' 투자자로 구분하며, 부주의한 투자자는 정보 처리 능력 제약으로 인해 뉴스 정보를 부분적으로만 업데이트한다고 가정합니다. 이러한 가정은 인간 투자자들이 모든 관련 정보를 즉시, 완벽하게 처리하지 못한다는 현실적 제약을 반영합니다. 시장의 '과소반응(underreaction)'은 이러한 인간 인지적 제약에서 비롯될 수 있습니다.
LLM은 이러한 인간의 정보 처리 제약을 보완하거나 능가할 수 있는 '정보 처리 능력'을 가진 새로운 주체로 모델에 도입됩니다. LLM은 방대한 텍스트 데이터를 빠르게 분석하고 복잡한 패턴을 식별함으로써, 인간이 놓치거나 지연 처리하는 정보를 더 효율적으로 통합할 수 있습니다. 이는 LLM이 단순히 정보를 '처리'하는 것을 넘어, 인간의 '인지적 편향'과 '주의 한계'로 인해 발생하는 시장 비효율성을 체계적으로 '착취(exploit)'할 수 있음을 시사합니다. LLM의 이러한 능력은 금융 시장에서 인간 분석가의 역할 변화를 가속화할 수 있습니다. LLM이 단순 정보 처리 작업을 대체하고, 인간은 LLM이 식별한 복잡한 패턴에 대한 전략적 해석이나 비정형적 의사결정에 집중하는 형태로 역할이 재편될 수 있습니다.
본 모델은 비근본적 거래자(noise traders)로부터 발생하는 비근본적 위험(nonfundamental risk)을 포함하여, 차익거래의 한계를 반영합니다. 주의 깊은 투자자는 비근본적 거래로 인해 가격이 펀더멘털 가치에서 멀어질 수 있음을 인지하고 거래합니다. 논문은 예측력이 소형주 및 부정적인 뉴스에서 더 강하게 나타난다고 언급하며, 이는 '차익거래의 한계'와 일치한다고 설명합니다. 차익거래의 한계는 일반적으로 유동성이 낮거나(소형주), 공매도가 어렵거나(부정적 뉴스에 대한 숏 포지션), 거래 비용이 높은 시장에서 더욱 두드러집니다.
LLM은 이러한 시장 마찰(friction)이 심한 곳에서 더 큰 기회를 발견할 수 있습니다. LLM은 인간과 달리 감정적 편향이나 인지적 한계가 없으므로, 비근본적 수요 변동성이나 복잡한 정보 속에서도 일관된 판단을 내릴 수 있습니다. 또한, LLM은 대량의 데이터를 매우 빠르게 처리하여 인간이 놓칠 수 있는 미묘한 신호를 포착함으로써, 전통적인 차익거래자들이 직면하는 정보 비대칭성 문제를 완화할 수 있습니다. 즉, LLM은 '정보 처리의 효율성'을 통해 차익거래의 한계를 부분적으로 우회하거나 극복하는 도구로 작용합니다. LLM이 차익거래의 한계를 줄이는 데 기여한다면, 이는 장기적으로 시장의 효율성을 높이고, 특정 시장 세그먼트(예: 소형주)의 가격 결정 메커니즘을 변화시킬 수 있습니다. 이는 또한 '알파(alpha)' 창출의 원천이 인간의 분석 능력에서 AI의 정보 처리 능력으로 이동할 수 있음을 시사하며, 전통적인 퀀트 전략에 대한 새로운 접근 방식을 제시합니다.
이론적 모델은 LLM이 수익성 있는 예측을 하기 위해 필요한 AI 능력의 '임계값(critical threshold)'이 존재함을 예측합니다. 이 임계값은 뉴스의 복잡성(news complexity)에 따라 달라지며, 오직 정교한 LLM만이 이해하기 어려운 뉴스를 효과적으로 해석할 수 있습니다.
논문은 GPT-1, GPT-2, BERT와 같은 기본 모델은 유의미한 예측력을 보이지 않는 반면, ChatGPT-4와 같은 최첨단 모델만이 높은 샤프 비율을 달성한다고 보고합니다. 이는 이론적 모델이 제시한 'AI 능력 임계값'의 실증적 증거입니다. 즉, 단순히 LLM을 사용하는 것만으로는 부족하며, 특정 수준 이상의 모델 복잡성과 정보 처리 능력이 요구됩니다. 금융 시장에서 AI를 통한 수익 창출은 기술적 우위에 크게 의존하며, 최첨단 LLM에 대한 지속적인 연구 개발 투자가 필수적임을 시사합니다. 이 임계값 개념은 금융뿐만 아니라 헬스케어 등 AI 성능이 직접적으로 경제적 가치로 전환되는 다른 분야에도 적용될 수 있음을 논문은 언급합니다. 이는 AI 기술의 경제적 효용이 선형적으로 증가하는 것이 아니라, 특정 '질적 도약' 이후에야 비로소 실현될 수 있음을 의미합니다. 따라서 기업들은 AI 투자 시 단순한 기능 구현을 넘어, 실제 가치를 창출할 수 있는 '임계 성능' 달성을 목표로 해야 합니다. 이러한 임계값의 존재는 LLM 개발 경쟁을 더욱 심화시킬 것입니다. 금융 시장에서의 우위를 점하기 위해 기업들은 더 크고, 더 복잡하며, 더 정교한 LLM을 개발하는 데 막대한 자원을 투자할 것이며, 이는 AI 기술 발전의 속도를 더욱 가속화할 것입니다.
본 모델은 LLM이 투자자의 정보 처리 능력을 증가시키고 시장 비효율성을 줄일 수 있음을 주장합니다. LLM이 충분히 정교해지고 더 많은 투자자가 이를 사용하기 시작하면, 가격이 기초 펀더멘털을 더 잘 반영하게 될 것이며, 결과적으로 수익률 예측력은 약화될 것이라고 예측합니다. 균형 상태에서도 비근본적 수요의 변동성과 거래 비용에 따라 예측력은 여전히 존재할 수 있습니다.
논문은 LLM 보급이 증가함에 따라 ChatGPT 기반 전략의 샤프 비율이 2021년 4분기 6.54에서 2023년 2.33으로 감소했다고 보고합니다. 이는 LLM이 시장 효율성을 높여 예측력을 감소시킬 것이라는 이론적 예측과 일치하는 '시사적인 증거'입니다. LLM이 제공하는 '알파'는 본질적으로 자기 소멸적(self-extinguishing) 특성을 가질 수 있습니다. 즉, LLM이 시장 비효율성을 성공적으로 착취할수록, 그 비효율성은 줄어들고, 결국 LLM 자체의 예측력도 감소하게 됩니다. 이는 금융 시장이 '정보 전쟁터'로서 끊임없이 진화한다는 효율적 시장 가설(EMH)의 동적 버전을 AI 시대에 맞게 재확인시켜 줍니다. LLM이 새로운 비효율성을 발견하고 착취하면, 시장은 그에 적응하여 효율성을 높이고, 다시 새로운 정보 처리 기술이 필요해지는 순환이 발생합니다. 따라서 LLM 기반 투자 전략의 지속적인 성공은 LLM 기술의 끊임없는 발전과 새로운 정보원 발굴에 달려있게 됩니다. 이러한 동학은 투자 전략의 수명 주기를 단축시키고, AI 기술 개발 및 배포 경쟁을 더욱 치열하게 만들 것입니다. 또한, 시장 참여자들은 LLM을 단순히 '도구'로 사용하는 것을 넘어, 시장의 변화 속도를 이해하고 그에 맞춰 전략을 지속적으로 조정하는 '적응성'을 갖추는 것이 중요해집니다.
본 연구의 실증 분석은 LLM의 주식 시장 예측 능력을 평가하기 위해 체계적인 데이터 수집, 정교한 프롬프트 설계, 그리고 다양한 포트폴리오 전략을 활용했습니다.
연구는 CRSP(일일 수익률, 시가, 종가), RavenPack(뉴스 데이터베이스, 관련성 점수, 이벤트 감성 점수), NYSE TAQ(장중 가격 및 수익률) 데이터베이스를 활용했습니다. 표본 기간은 2021년 10월부터 2023년 12월까지로 설정되었습니다. 이 기간은 ChatGPT의 훈련 데이터 중단 시점인 2021년 9월 이후이므로, LLM의 '표본 외(out-of-sample)' 예측 능력을 평가할 수 있도록 보장합니다.
뉴스 데이터셋은 미국 보통주 관련 주요 뉴스 매체 및 뉴스 와이어의 헤드라인을 웹 스크래핑 방식으로 수집하여 구성되었습니다. 수집된 헤드라인은 RavenPack 데이터와 매칭되어 관련성 점수 100점의 뉴스만 분석에 사용되었습니다. 최종 샘플은 4,106개 기업에 대한 134,129개의 헤드라인을 포함합니다. 뉴스 유형은 크게 두 가지로 분류되었습니다: 약 68% (91,700개)가 보도자료(press releases)였고, 나머지 32%는 뉴스 기사(news articles)였습니다. 또한, 뉴스 발표 시간에 따라 약 81% (109,206개)가 오버나잇 뉴스(거래일 오전 9시 이전 또는 전날 오후 4시 이후 발표), 19%가 장중 뉴스(거래일 오전 9시 이후부터 오후 4시 이전 발표)로 분류되었습니다. 데이터 전처리 과정에서는 '주식 상승/하락'을 나타내는 헤드라인을 제외하고, 반복 뉴스 방지를 위해 '이벤트 유사성 일수(event similarity days)'가 90일을 초과하는 조건이 적용되었으며, 중복 및 과도하게 유사한 헤드라인도 제거되었습니다.
ChatGPT에게는 "금융 전문가이자 주식 추천 경험이 있는...

