3장에서는 지도 학습을 위해 금융 데이터를 레이블하는 방법을 알아본다.
고정 기간 기법
금융에 있어서 거의 모든 머신러닝 논문은 고정 기간 기법으로 관측값을 레이블한다. 고정 기간 기법이란 다음과 같은 방법이다.
특정 시점에서 데이터를 추출한 후, 정해진 시간(horizon)이 지난 뒤의 수익률을 바탕으로 라벨을 경정하는 방식
라벨링 방식: 수익률이 임계값 보다 높으면 1, 낮으면 -1, 그 사이라면 0으로 설정
수익률 정의
하지만 이러한 고정 기간 기법은 다음과 같은 이유로 사용을 피해야 한다.
2장에서 다뤘듯, 시간을 기준으로 샘플링하는 방법은 통계적 성질이 좋지 못하다.
관측된 변동성에 따라 임계값이 달라져야 하는데, 그렇지 못하다.
따라서, 다음과 같은 방법을 사용하는게 좋다.
수익률의 지수 가중 표준 편차를 측정해 그 값이 변하는 임계값에 대해 레이블 하는 것
거래량 바나 달러 바의 변동성이 훨씬 상수에 가까우므로 이를 이용하는 것
결과(종가)만 보고라벨링 하는 것은 현실의 매매를 반영하지 못하므로(청산, 손절 등) 가격의 경로가 반영되어야 한다.
동적 임계값 계산
베팅애 내재된 위험 함수로 이익실현과 손절 한도를 설정하는 방법이다.
지수 가중 이동 표준편차를 일정 간격만큼 적용한다.
해당 변동성에 특정 배수를 곱하여 그 시점의 라벨링 기준으로 삼는다.
삼중 배리어 기법
다음과 같은 세개의 기준 중 최초로 만족된 기준에 따라 관측값을 레이블 하는 방법이다.
수익률 상단
목표 수익률 지점에 도달한 경우 1(매수 성공)로 레이블링
수익률 하당
최대 허용 손실 지점에 도달한 경우 -1(매도/손절)로 ...

![[BOOK] AFML 2 실습](https://post-image.valley.town/iryd5lWtKnjhW23pNAxjN.png)
![[BOOK] AFML 2](https://post-image.valley.town/H62zZBkLy7nzAU0VlsZy1.png)