최근 데이터 분석 관련된 책들을 읽어보려고 하다가 우연히 둥둥이님의 "[독후감] 데이터는 예측하지 않는다"를 보고 책 내용이 괜찮아 보여 읽어봤다.
기본적으로 많은 양의 데이터를 바탕으로 분석을 하고 결과에 의미를 도출하는 일을 하고 있는 상황이라, 상당히 공감가는 내용들이 있어 이렇게 기록으로 남기면 좋겠다는 생각이 들었다.
03 데이터 분석, 꼭 알아야 할 15가지
읽은 내용 중기억에 남는 몇 가지 챕터 위주로 기록을 남긴다.
1) 가비지 인, 가비지 아웃
처음부터 마음이 아팠다. 대학원 수업 중 기억에 남는 교수님 중 한 분이 있는데, 이 분이 참 가비지를 사랑하셨다.
야, 가비지(쓰레기)에 넣어봐야 가비지 밖에 안나오지 않겠냐?
저자가 하려는 말과 조금 차이가 있지만, 1년 동안 수업을 들으며 정말 많이 들었던 말이다. 가비지(너희)가 해봐야 가비지밖에 나오지 않겠냐는 말이다. 쓰레기를 넣어도 쓰레기가 나오지만, 쓰레기에 뭘해도 쓰레기일 뿐이다. 옛날 생각나게 만들어서 첫 행동 강령부터 기억에 남는다.

2) 분석 자체보다 분석 과정 전체를 보는 것이 훨씬 더 중요하다.
나도 한 때, 이 착각에 빠져 있었다. 분석 자체에 몰두하고, 좋은 분석을 어떻게 할까만 고민하던 시기. 지금은 많이 좋아져서, 분석하기 전에 어떻게 큰 그림을 그릴지, 어떻게 구조적으로 접근할지 고민하는 편이다. 그리고 결과에서 어떤 인사이트를 얻을 수 있을지 늘 고민한다.
특히나 챗gpt를 필두로 생성형 AI 성능이 비약적으로 상승하고 있는 지금. 분석 자체 역량보다도 어떤 분석을 할지, 왜 그런 분석을 하는지, 그리고 결과를 어떻게 활용할 지 등을 고민하는게 더 중요한 시기가 되어간다고 생각한다. 결국 AI는 기존 데이터를 바탕으로 고도화되기 때문에 아직까지 샘플이 적은 영역에 대해서는 인간이 가지는 강점이 크다고 본다.
3) 웬만한 건 고등학교 수준의 통계학만으로도 가능하다.
하,, 이것도 참 뼈를 때리는 한마디다. 지도교수가 학위 내내 했던 이야기가 있다.
even high school student can do it
고등학생 조차도 할 수 있는 일이다
저자도 책에서 말하는데 고등학교 수준의 지식만으로도 가능하다고 말한다. 맞다. 데이터 분석하는 입장에서 결국 덧셈, 뺄셈, 곱셈, 나눗셈 이걸로 대부분이 커버가 된다. 심지어 그 단순한 평균과 분산만으로도 자료 결과에 많은 양의 통찰력과 의미있는 결과를 도출할 수 있다. 지도교수 생각나서 이번 3번 행동강령도 머리에 쏙 박혀버렸다.
모델 예측성 검증하는 부분에서 단순 평균과 분산이 얼마나 강력한 도구로 작동하는지 알 수 있다. 가령 예를 들어 당신이 만든 모델(AI 모델도 그 중 일부일 수 있겠다)이 얼마나 좋은 성능을 보여주는지 확인해야 하는 상황라고 가정해보자. 대부분 MSE나 MAE 혹은 Normalized MSE 등을 사용한다. 용어는 분야마다 차이가 있는데, 여기서 MSE는 mean squared error(or bias)를 의미하며, MAE는 mean absolute error(or bias)를 말한다. 간혹 ME (mean error or mean bias)를 사용하기도 하지만, 아마 대부분 MAE를 많이 사용하는 것으로 알고 있다.
단순 기술적으로 생각하면 MAE를 사용하는 것이 편하다. 혹은 표준화된 값도 마찬가지고. error라는 것(bias 대신 error라고 편하게 쓰겠다)은 결국 양의 값과 음의 값이 있다. 그렇기 때문에 단순 error의 평균을 내면, 양과 음이 cancel되기 때문에 error의 절대값을 확인해야 모형 오차의 크기를 정량화할 수 있다. 마치 표준편차를 계산할 때 제곱을 취하는 것과 같은 원리다.
그런데 ME는 MAE의 하위호환인 1차원적인 검증 툴일까? 그렇지 않다. 상황에 따라 ME도 유의미한 의미를 가질 때가 있다(생각보다 많다). 예를 들어, ME는 0인데, MAE는 10인 모형이 있다고 하자. 여기서 찾을 수 있는 메세지는 모형 오차의 평균은 0이고 오차의 절대 크기는 10인 상황이라고도 볼 수 있다. 본인은 사실 MAE 보다 MSE를 더 선호하는데, 사실상 이게 평균과 표준편차의 개념과 같기 떄문에 범용성이 더 넓다. 이는 모형이 어떨 때는 양의 에러를 만들고, 어떨 대는 음의 에러를 만든다는 의미이다. 즉, 모형이 한결같이 보이는 systematic bias는 0에 가깝고 상황에 따라 양과 음의 에러가 발생한다는 의미다. 이 경우 모형 성능 개선이 상대적으로 힘들어진다.
만약 ME가 5인데 MAE가 5인 상황이면, 아주 단순한 linear bias correction 만으로도 구조적 오차를 통계적으로 제거할 수 있다. 물론 모형 자체가 가지는 시스템 상의 한계를 근본적으로(역학적으로) 제거한 것은 아니지만, 단순 후처리만으로도 효율적으로 모형의 성능개선이 가능해진다. 앞선 ME 0이고 MAE가 10인 상황은 양의 에러와 음의 에러를 구분하거나 혹은 둘 다를 고려했을 때 왜 모형이 그 순간에 error를 보이는지 정밀한 분석이 필요해진다.
또 재밌는 검증도 있는데 바로 편차의 에러를 확인하는 것이다. reference data도 어떠한 key signal이 있을 것이며, key signal로 부터 양수인지 음수인지 등 anomaly 개념의 자료를 만들어 낼 수 있다. 예를 들어, valley AI의 매크로 대회를 가정했을 때, 참가자들의 기저 예측 정확도(전체 평균...




