[BOOK] AFML 2
비정형 금융 데이터를 다루고, 이를 통해 머신러닝 알고리즘에 적합한 정형 데이터셋을 도출하는 방법을 학습한다.
재무 데이터 유형
Fundamental Data
분기별로 보고되는 회계데이터
보고 시점과 실제 데이터간 시차가 존재한다.
데이터가 소급 보정되거나 복원되는 경우가 있다. (예를들면 GDP처럼)
Market Data
거래소 또는 거래플랫폼에서 발생하는 모든 거래 데이터
경쟁자의 다음 움직임을 예측할 수 있는 방법을 찾을 수 있다.
데이터의 양이 방대하기 때문에 처리하기 쉽지 않다
Analytics
분석은 기본 데이터, 시장 데이터, 대체 데이터 또는 다른 분석을 종합한 원시데이터로부터 파생된 데이터이다.
원시데이터에서 유용한 신호를 추출한 것
분석 방법론이 편향되거나 불투명할 수 있다.
Alternative Data
개인(SNS, 뉴스, 웹 탐색 등), 비즈니스 프로세스(거래 내역, 회사 데이터, 정부 기관 등), 센서(CCTV, 위성, 기상 정보 등)로 구분 가능한 데이터
데이터를 처리하기 굉장히 어렵다.
바
비정형 데이터에 머신러닝 알고리즘을 적용하려면 먼저 분석, 추출하여 정규화된 형태로 저장해야 한다. 즉, 데이터가 표의 형태로 저장되어야 한다. 금융 실무자들은 이러한 표의 행을 바(bar)라고 부른다. 앞으로 설명할 것은 이러한 바의 종류이다.
표준 바
어떤 바 구성 기법은 대다수의 데이터 업체가 API로 제공할정도로 매우 보편적이다. 이러한 기법의 목적은 여러 독립변수 중 하나를 선택하여 해당 변수에 대해서는 도출된 균질 계열을 변환하는 것이다.
시간 바
시간 바는 고정된 시간 간격으로 정보를 표본 추출해 생성한다. 예를 들어, 매 분 자료를 얻는 식이 된다. 이때 얻게 되는 자료는 대개 다음과 같다.
타임스탬프
거래량 가중 평균가
시가
종가
저가
고가
거래량 등
시간 바는 가장 보편적인 샘플링 방법이지만, 다음과 같은 이유 때문에 사용을 권장하지 않는다.
시장은 정보를 일정한 시간 간격으로 처리하지 않는다. 따라서 거래가 활발할 때는 정보를 과소 추출하는 반면, 거래가 적을 때는 정보를 과대 추출하게 된다.
시간에 따라 추출된 시계열 자료는 통계적 특성이 좋지 못하다. 그 예로는 계열 상관, 이분산성, 수익률의 비정규 분포성 등이 있다.
계열 상관: 이전의 데이터가 다음 데이터에 영향을 주는 현상
이분산성: 시간대별로 변동성이 들쭉날쭉한 성질
수익률의 비정규 분포성: 시간바의 수익률이 정규분포를 따르지 않음
이러한 문제를 해결하고자 나온것이 GARCH 모델(금융 시장의 변동성이 시장에 따라 어떻게 변하는지 예측하고자 만들어진 통계 모델)이다.
시간 바의 이러한 문제를 해결하고자 한다면, 다음과 같은 대체 바를 사용하는 것이 좋다.
틱 바
틱 바는 타임스탬프, 거래량 가중 평균가, 시가, … 같은 정보를 정해둔 거래 건수마다 추출하는 방법이다.
만델브로와 테일러는 표본 추출을 거래 건수의 함수로 수행하면 표본이 바람직한 통계적 성질을 가진다는 것을 처음으로 발견했다.
고정된 거래 건수에 따른 가격 변동은 가우시안 분포를 따를 수 있다.
반면, 고정된 기간에 따른 가격 변동은 분산이 무한대까지 갈 수 있는 파레토 분포를 따른다.
거래량 바
틱 바의 문제점 중 하나는 거래의 파편성으로...