티스토리 뷰

728x90

1. 분류분석(classification analysis) 이란....?

= 판별분석 (discriminant analysis) or 계획된 기계학습 (supervised learning)

 

- 소속집단을 모르는 데이터를 어느 한 집단으로 분류하는 기법

 

- 분류모형 : 베이즈분류(Bayes classification), 로지스틱회귀(logistic regression), 의사결정나무(decision tree)

 

2. 분류분석의 절차

2-1. 분류모형의 평가 척도

accuracy(정확도) : 전체 데이터의 수 중 올바르게 분류된 수의 비율

error rate(오류율) : 전체 데이터의 수 중 잘못 분류된 수의 비율

 

→ 일반적으로 분류모형은 정확도를 최대화하거나 또는 오류율을 최소로 하는 알고리즘을 찾기 위해 노력한다. 

 

3. 데이터 분할

훈련용 데이터(trainiing data) : 모형을 수립

시험용 데이터(testing data) : 모형의 정확도를 평가

검증용 데이터(validating data) : 모형의 성능을 개선

 

3-1. Holdout Method(예비법) & Random Subsampling(랜덤부표집)

 

 

3-2. Cross Validation(교차타당성)

 

3-3. Bootstrap(부트스트랩)

 

4. 분류모형

4-1. Bayes Classification(베이즈분류)

Bayes classification 모형은 각 집단으로 분류되는 prior probability와 집단별 likelihood probabiliy를 알 때, 소속집단을 모르는 데이터에 대하여 Byes theorem을 이용한 posterior probability를 구하여 그 확률이 높은 집단으로 분류하는 방법이다. 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

728x90
댓글
공지사항
최근에 올라온 글