2주차-시황 정보의 전처리(계속 새겨보자)




Kaggle 등의 대회에서는 항상 Data를 전처리 하게 되어있다. 나도 회사다니면서 Data Science 관련 사내자격증이나 외부자격증을 응시를 했었는데 Data 분석에서 제일 오래 걸리는 부분이 전처리 부분이었다. 이걸 어떻게 처리하는가에 따라 내가 원하는 결과가 나올 수도 있고 그러지 않을 수도 있음을 배웠다.
월가아재님의 칼럼에서 인풋>프레임>아웃풋 의 일련의 과정들이 적절한 Data를 선정하고/ 목적에 따라 올바른 전처리를 수행하고/ 이를 통해 의사결정에 도움이 되는 아웃풋을 쌓는 단계로 번역이 되는 것 같다. 인상깊은 칼럼이었다.
사실 그런 틀을 기억하는 방법 중 하나가 Kaggle을 하는 것이라고 생각한다. 뭐 데이터 전처리만 해도 내 머리가 기억을 못해도 손가락이 기억을 하는 그런게 있으니까 ㅎㅎ. 나는 HW라서 SW를 쓸 일이 많아질지는 모르겠지만(phd로 유학을 가게 된다면 달라질 수는 있을 것이고 또 모른다 산업은 항상 변화하니까) 나의 외연을 어떠한 방법으로든 고리를 연결지어 보는 것이 중요하다는 생각을 최근에 하고 있다.
우리 인생의 화두 - 단순한 쾌락/도파민 추구와 후회의 반복이라는 고락의 굴레 속에서 벗어나 어떻게 하면 지적으로 풍요롭고, 지속 가능한 행복의 상태를 찾을 것인가라는 문제와 매우 밀접하게 맞닿아 있다고 생각합니다.
오 이건 너무 띵갓명언이다.