티스토리 뷰
1. 분류분석(classification analysis) 이란....?
= 판별분석 (discriminant analysis) or 계획된 기계학습 (supervised learning)
- 소속집단을 모르는 데이터를 어느 한 집단으로 분류하는 기법
- 분류모형 : 베이즈분류(Bayes classification), 로지스틱회귀(logistic regression), 의사결정나무(decision tree)
2. 분류분석의 절차
2-1. 분류모형의 평가 척도
accuracy(정확도) : 전체 데이터의 수 중 올바르게 분류된 수의 비율
error rate(오류율) : 전체 데이터의 수 중 잘못 분류된 수의 비율
→ 일반적으로 분류모형은 정확도를 최대화하거나 또는 오류율을 최소로 하는 알고리즘을 찾기 위해 노력한다.
3. 데이터 분할
훈련용 데이터(trainiing data) : 모형을 수립
시험용 데이터(testing data) : 모형의 정확도를 평가
검증용 데이터(validating data) : 모형의 성능을 개선
3-1. Holdout Method(예비법) & Random Subsampling(랜덤부표집)
3-2. Cross Validation(교차타당성)
3-3. Bootstrap(부트스트랩)
4. 분류모형
4-1. Bayes Classification(베이즈분류)
Bayes classification 모형은 각 집단으로 분류되는 prior probability와 집단별 likelihood probabiliy를 알 때, 소속집단을 모르는 데이터에 대하여 Byes theorem을 이용한 posterior probability를 구하여 그 확률이 높은 집단으로 분류하는 방법이다.
'Data > R' 카테고리의 다른 글
[데이터사이언스/R] 데이터 분석해보기 6 - Red Wine Quality (0) | 2021.07.08 |
---|---|
[데이터 분석해보기] Bayes Classification (베이즈 분류) (feat. Mushroom) (1) | 2021.07.07 |
Linear Regression (선형 회귀) (0) | 2021.07.06 |
범주형/연속형 데이터의 연관 분석 (0) | 2021.07.06 |
연관분석 (Association Analysis) (1) | 2021.07.05 |