Red Wine Quality - 데이터 설명 및 분석 [데이터사이언스/R] 데이터 분석해보기 6 - Red Wine Quality 1. 데이터 확인 1-1. 데이터 소개 - 레드 와인의 물리 화학적 특징과 퀄리티 점수를 보여주는 CSV파일 데이터 1-2. 데이터 구조 분석 - 데이터를 불러온다. wine - 데이터의 structure를 확인한다. s programmer-ririhan.tistory.com 1. 데이터 확인 1-1. 데이터 정제 덴드로그램으로 확인해보기위해 데이터의 수를 약 200개로 줄인다. - 전체 데이터가 1599개 이므로 이 중 200개의 데이터만 랜덤으로 추출한다. library(dplyr) hc
Red Wine Quality - 데이터 설명 및 분석 [데이터사이언스/R] 데이터 분석해보기 6 - Red Wine Quality 1. 데이터 확인 1-1. 데이터 소개 - 레드 와인의 물리 화학적 특징과 퀄리티 점수를 보여주는 CSV파일 데이터 1-2. 데이터 구조 분석 - 데이터를 불러온다. wine - 데이터의 structure를 확인한다. s programmer-ririhan.tistory.com 1. AdaBoosting Ensemble 모델 적용 - 첫번째 train, test set에 대하여 AdaBoosting Ensemble 모델을 적용한다. - subset() 함수 참고 library(ada) # train data로 모델 생성 gdis volatile.acidity 변수가 분류에 가..
Red Wine Quality - 데이터 설명 및 분석 [데이터사이언스/R] 데이터 분석해보기 6 - Red Wine Quality 1. 데이터 확인 1-1. 데이터 소개 - 레드 와인의 물리 화학적 특징과 퀄리티 점수를 보여주는 CSV파일 데이터 1-2. 데이터 구조 분석 - 데이터를 불러온다. wine - 데이터의 structure를 확인한다. s programmer-ririhan.tistory.com 1. 단일 데이터셋에 SVM 모델 적용 1-1. SVM 모델 적용 - svm() 함수를 이용해 첫번째 train, test set에 대하여 SVM 모델을 적용한다. - svm() 함수 document 참고 - kernel 옵션을 사용하여 선형(linear) SVM 모델을 사용할지, 비선형(sigmoid..
1. 데이터 확인 1-1. 데이터 소개 - 레드 와인의 물리 화학적 특징과 퀄리티 점수를 보여주는 CSV파일 데이터 1-2. 데이터 구조 분석 - 데이터를 불러온다. wine 13개의 변수와 1599개의 데이터를 가지고 있다. -> 모든 변수가 연속형 변수임을 알 수 있다. fixed.acidity(결합산) : 와인의 산도를 제어한다. volatile.acidity(휘발산) : 와인의 향에 연관이 많다. citric.acid(구연산) : 와인의 신선함을 유지시켜주는 역할을 하며, 산성화에 연관을 미친다. residual.sugar(잔여 설탕) : 와인의 단맛을 올려준다. chlorides(염소) : 와인의 짠맛과 신맛을 좌우하는 성분이다. free.sulfur.dioxide / total.sulfur.d..
1. 데이터 확인하기 1-1. 데이터 소개 UCI의 공개데이터인 Mushroom을 csv파일로 배포한 것을 사용하였다. 1-2. 데이터 구조 분석하기 - 데이터 불러온다. mushroom 변수 별로 막대그래프/히스토그램, 도수분포표, summary 등을 탐색해본다. -> 정규분포와 거리가 멀어보이는 변수의 경우 제거하는 것도 방법이다. -> 산점도를 봤을 때 두 변수가 믹스돼있을 경우 적절하지 않은 변수이다. -> 정규성 검정 mvn() - 변수별로 살펴본다. 2. 데이터 분할하기 - Holdout 방식 - simple random sampling 방법을 사용한다. - 전체 데이터 중 70%는 training data로, 나머지 30%는 testing data로 분리한다. - set.sedd()를 이용해..
1. 분류분석(classification analysis) 이란....? = 판별분석 (discriminant analysis) or 계획된 기계학습 (supervised learning) - 소속집단을 모르는 데이터를 어느 한 집단으로 분류하는 기법 - 분류모형 : 베이즈분류(Bayes classification), 로지스틱회귀(logistic regression), 의사결정나무(decision tree) 2. 분류분석의 절차 2-1. 분류모형의 평가 척도 accuracy(정확도) : 전체 데이터의 수 중 올바르게 분류된 수의 비율 error rate(오류율) : 전체 데이터의 수 중 잘못 분류된 수의 비율 → 일반적으로 분류모형은 정확도를 최대화하거나 또는 오류율을 최소로 하는 알고리즘을 찾기 위해 ..
1. Linear Regression(선형 회귀).....? 최소 제곱법 1. 각 x에서 y분포도 (독립) 2. 각 x에서 y분포의 분산이 같다. (등분산성) 3. 각 x에서 y분포가 정규분포이다. → 검증해내야한다. → 이 가정이 맞지 않다면 해당 회귀 모형을 사용하면 안 된다. r (correlation coeff 상관계수) -> 0.8 이상 적정 r**2 (coefficient fo determination 결정계수) = RSS/TSS total sum of squares 제곱 거리의 합 아노바 데이터 사이언스 스쿨 — 데이터 사이언스 스쿨 (datascienceschool.net) 데이터 사이언스 스쿨 — 데이터 사이언스 스쿨 데이터 사이언스 스쿨은 데이터 사이언스에 대한 모든 지식을 공유하는 장..
기술 통계 (Descriptive Statistics) : 현재 가지고 있는 데이터를 기반으로 객관적 사실만을 나타내는 통계 (데이터 탐색) → 수집한 데이터를 요사/묘약/설명하는 통계 기법 추측 통계 (Inferential Statistics) : 현재 가지고 있는 데이터로부터 더 큰 집단의 특징을 추측하는 통계 - 모집단(Population) : 관심 있는 대상 모두의 수치적 자료 - 모수(Parameter) : 모집단의 특징을 나타내는 양적인 측도 (평균, 분산 등) - 표본(Sample) : 모집단으로부터 뽑은 부분집합 - 통계량(Statistic) : 표본의 특성을 나타내는 양적인 측도 → 표본의 통계량으로부터 모집단의 모수를 추론하는 것이 목적!! 모수추정 Q. 모집단이 충분히 클 경우 표본평..
데이터 설명 이름 : Transactions from a bakery 링크 : Transactions from a bakery | Kaggle - 베이커리에서 판매된 상품의 트랜잭션 기록 데이터이다. bread% group_by(Month) %>% summarise(Transactions=n_distinct(Transaction)) %>% ggplot(aes(x=Month, y=Transactions)) + geom_bar(stat="identity", fill="pink", show.legend=FALSE, colour="black") + geom_label(aes(label=Transactions)) + labs(title="Transactions per month") + theme_bw() 우리가 ..