분류 알고리즘 (classification algorithms)
분류 알고리즘은 학습 데이터로 주어진 데이터의 피처와 레이블값(결정 값, 클래스 값)을 머신러닝 알고리즘으로 학습해 모델을 생성하고, 이렇게 생성된 모델에 새로운 데이터 값이 주어졌을 때 미지의 레이블 값(결정 값, 클래스 값)을 예측할 때 사용하는 알고리즘이다. 분류는 지도학습의 대표적인 유형이라고 할 수 있으며, 대표적인 알고리즘은 다음과 같다.
- 나이브 베이즈(Naive Bayes)
- 베이즈 통계와 생성 모델에 기반한 알고리즘
- 로지스틱 회귀(Logistic Regression)
- 독립변수와 종속변수의 선형 관계성에 기반한 알고리즘
- 이름은 회귀이지만, 강력한 분류 알고리즘이다.
- 결정트리(Decision Tree)
- 데이터 균일도에 따른 규칙 기반의 알고리즘
- 쉽고 유연하며, 스케일링이나 정규화의 영향이 적지만 과적합으로 인한 예측 성능 저하 문제가 발생할 수 있다.
- 앙상블에 많이 사용된다.
- 서포트 벡터 머신(Support Vector Machine, SVM)
- 개별 클래스 간의 최대 분류 마진을 효과적으로 찾아주는 알고리즘
- 최소 근접(Nearest Neighbor)
- 근접 거리를 기준으로 하는 알고리즘
- 신경망(Neural Network)
- 심층 연결 기반의 딥러닝 알고리즘
- 앙상블(Ensemble)
- 여러 머신러닝 알고리즘들을 결합해 사용하는 알고리즘
- 보통 약한 학습기인 결정트리를 이용한다.
Leave a comment