[데이터 분석] 데이터는 예측하지 않는다 - 김송규 (2부)

[데이터 분석] 데이터는 예측하지 않는다 - 김송규 (2부)

avatar
김핑이
2024.10.30조회수 8회

얼떨결에 WSAJ premium - Neron's Insight에 올라가게 되네요. 좋게 봐주셔서 감사합니다. 1부는 원본은 여기입니다. 물 들어올 때 노 저어야하니 원본으로 봐주시죠.


1부에서는 "03 데이터 분석, 꼭 알아야 할 15가지" 챕터에 대한 이야길 했다. 2부에서는 다른 챕터를 가져와서, 몇 가지 내 생각을 곁들여 이야기 해보고자 한다.

06 데이터의 상관관계, 인과관계

아마 데이터 분석 좀 해봤다 하는 사람들을 대상으로 데이터 분석에서 유의해야 할 세 가지를 꼽으라면, 대부분 하나에는 반드시 이 이야기가 들어갈 것이라 생각한다. 많은 사람들이 알고 있으면서도, 많은 사람들이 놓치고 있는 내용인데 바로 상관성과 인과성에 대한 구분이다.

Correlation vs Causation Cartoon – Innovation Evangelism

머리로는 이해하지만, 실제 데이터 분석을 수행하고 그 결과를 받아들이고 인사이트를 도출하는 과정에서 나도 모르게 놓치는 부분이기도 하다.


간단히 상관성과 인과성에 대해서 설명해보고 넘어가자. 영어로는 correlation과 causailty인데, 영어로 이해하면 조금더 직관적인 이해가 가능하다. 먼저 상관성은 cor - relation 으로 구분해서 보면, co 라는 단어에는 함께 같이 서로 뭐 이런 의미이고, relation는 관계라는 단어다. 즉 상관성은 서로 관계가 있다라는 것을 보여주는 지표라고 보면 된다. 인과성은 cause에서 기인한 단어라고 보면, A와 B가 단순히 관계가 있는 것을 넘어 하나가 다른 하나의 원인이 될 때를 지칭한다고 볼 수 있다.


이렇듯 상관성은 단순한 둘의 관계를 나타내는 지표이지만, 인과성은 두 자료의 원인과 결과가 성립될 때 쓸 수 있는 말이다. 이렇게 적고 보면, 당연한 이야길 한다고 생각할 수 있겠다. 그런데 실제 분석하다 보면 이게 당연한게 당연한게 아닐 때가 많다.

이건 너무한거 아니냐고 > 자유게시판 | 애드센스 포럼 커뮤니티

이거 당연하거 아니냐고


책에서는 모기약 판매량과 모기 개체수를 예로 들었는데, 여기서는 키와 발 사이즈를 예로 들어보겠다. 만약 실제 자료에서 키와 발 사이즈 사이에 높은 상관관계를 보였다고 가정해보자. 이 경우 산점도 상에 자료를 표시해보면 correlation이 0.5 이상으로 높은 양의 값을 보일 것이다. 이 때 우리는 이렇게 생각할 수 있다. 키가 큰 사람은 발 사이즈도 큰가보다. 아래 그림은 대충 구글에서 아무거나 검색해서 가져온 그림이다.

Height Versus Shoe Size



인과성 관점에서 다시 살펴보자. 상관성이 높은 두 자료는 과연 인과관계에 있을까? 그럴수도 있지만 아닐수도 있다. 키가 발 사이즈의 원인이라고 자신있게 말할...

회원가입만 해도
이 글을 무료로 읽을 수 있어요.

이미 계정이 있으신가요?로그인하기
댓글 1
avatar
김핑이
구독자 32명구독중 25명
읽고, 키우며, 뛰면서 생각한 것들은 정리하는 공간입니다.