4장에서는 금융 응용에 늘 존재하는 문제인 관측값이 IID(Independent and Identically Distributed)가 아닌 문제를 해결하는 방법을 배운다.

중첩된 결과

이전 장에서는 관측 특성에 레이블을 배분했다. 하지만 이전 데이터의 결과가 확정되기 전에 다음 데이터가 이미 시작된 경우 (데이터 샘플링 시 구간이 중첩될 때) 공통의 수익률 구간이 발생하고, 데이터는 IID가 아니게 된다. 물론 샘플링 시 구간이 중첩되지 않도록 할 수 있지만, 저자는 이것이 예측 기간을 제한시키고 트리플 배리어 방법과 반하게 되며 샘플링 빈도가 낮아져 모델이 투박해질수밖에 없다고 경고한다.

금융 응용은 이러한 측면에서 다른 분야와는 다르게 특수하다. 다른 분야들은 표본이 독립적이지만, 금융은 그렇지 못하다.

이번 장에서는 중첩된 결과의 지나친 영향을 교정하고자 표본 추출과 가중값 설계 방법으로 해결해보고자 한다.

공존 레이블의 개수

두 레이블이 적어도 하나의 공통 수익률을 가지면 구간 t_0~t_1에서 공존한다 라고 하자. 지금부터는 특정 시점에 얼마나 많은 레이블이 겹쳐 있는가?를 수학적으로 카운트 해보고, 이를 통해 각 데이터의 희소성이나 가중치를 계산하고자 한다.

이진 배열 만들기 만약 i번째 레이블의 기간t_0~t_1이 시점 t를 포함하면 1, 그렇지 않으면 0으로 쓴다.
공존구간 합산 각 이진배열을 원소별로 더한다. (중첩되는 절대 시간 구간이 합산되도록)

레이블의 평균 고유도

앞서 계산한 특정 시점 t에서의 공존 레이블의 개수를 c_t라고 하자. 그렇다면 특정 시점 t에서의 고유성은 다음처럼 정의될 수 있다.

u_{t,i} = \frac{1_{t,i}}{c_t}

1_{t,i}는 해당 시점에서 레이블 i가 존재하면 1, 아니면 0이다.
만약 특정시점 t에서 5개의 레이블이 겹쳐있다면 각 레이블은 그 시점의 수익정보를 1/5만큼 나누어 가졌다고 보기 위해서 사용한다.

고유도 값의 기준을 만들 수 있다면 어떤 데이터가 새롭고 독특한 정보(중복된 데이터가 아닌)인지 알 수 있다. 따라서 평균을 활용해 레이블 i의 평균 고유성을 계산하면, 다음과 같다.

\bar{u}i = \frac{\sum{t \in [t_{i,0}, t_{i,1}]} u_{t,i}}{\text{Lifespan of } i}

어떤 레이블 i가 총 3시간동안 살아있다고 가정해보자.
1시간째: 나 혼자 있음 c_t=1 → 내 지분 u_{t,i} = 1/1 2시간째: 다른 애랑 둘이 있음 c_t=2 → 내 지분 u_{t,i} = 1/2 3시간째: 다른 애들 포함 4명 있음 c_t=4 → 내 지분 u_{t,i} = 1/4
이제 이 레이블의 평균 고유성은? 내가 평생 모은 지분 총합 → 1.0 + 0.5 + 0.25 = 1.75 나의 수명(Lifespan) → 3시간 평균 고유성: 1.75 /3 ...

중첩된 결과

공존 레이블의 개수

레이블의 평균 고유도

회원가입만 해도
이 글을 무료로 읽을 수 있어요.

[BOOK] AFML 3

[BOOK] AFML 2 실습

[BOOK] AFML 2

[BOOK] Advances in Financial Machine Learning 1

[BOOK] AFML 3

[BOOK] AFML 2 실습

[BOOK] AFML 2

[BOOK] Advances in Financial Machine Learning 1

[BOOK] AFML 4

중첩된 결과

공존 레이블의 개수

레이블의 평균 고유도

회원가입만 해도이 글을 무료로 읽을 수 있어요.

[BOOK] AFML 3

[BOOK] AFML 2 실습

[BOOK] AFML 2

[BOOK] Advances in Financial Machine Learning 1

[BOOK] AFML 3

[BOOK] AFML 2 실습

[BOOK] AFML 2

[BOOK] Advances in Financial Machine Learning 1

회원가입만 해도
이 글을 무료로 읽을 수 있어요.