Machine Learning과 전통적 통계분석 방법의 차이
머신러닝 방법과 전통적 통계분석 방법은 사용 알고리즘, 방법론보다는 사용하는 목적에서 가장 큰 차이가 발생한다.
먼저, 머신러닝 방법은 예측의 성공 확률을 높이는 데에 목적이 있다. 따라서 모델의 신뢰도나 정교한 가정은 상대적으로 중요성이 낮아지며, 오버피팅은 어느 정도 감안하더라도 여러 인자를 사용해 예측을 수행한다. 예컨대, 카드결제이력을 바탕으로 특정 고객군의 지출을 예측한다면 고객정보, 기온, 가맹점 특성 등 최대한의 인자를 모델에 적용해 예측을 수행하며, 어떤 인자가 왜 중요한지는 크게 중요하지 않게 된다. 물론 머신러닝에도 과도한 오버피팅을 방지하기 위한 feature selection 등의 기법은 존재한다.
반면 전통적 통계분석 방법은 정해진 분포나 가정을 통해 실패 확률을 줄이는 데에 목적이 있다. 따라서 모형의 복잡성보다는 단순성을 추구하며, 신뢰도가 중요해진다. 추가적으로 파라미터의 해석가능성 또한 통계분석 방법에서는 중요하게 다뤄진다. 예컨대, 특정 고객군 지출 예측 시 중요 인자를 미리 선택하여 고객이 왜 해당 지출을 하는지에 대한 설명이 가능해지도록 분석이 이루어지는 것이다.
Leave a comment