[ADsP] 데이터분석 주제 정리
😃
데이터 분석 과목에서 다루는 주제들이 생각보다 넓다보니 한눈에 보기가 쉽지 않다. 각 기술들에 상세한 분석을 하기전에 전체적인 흐름을 정리하고자 한다.
-
R 기초
-
통계분석
-
통계분석 개요 (모집단, 표본, 표본추출방법)
- 표본추출방법
- 확률적추출 (단순 무작위 추출, 계통추출, 층화 추출, 군집 추출)
- 비확률적 추출 (판단추출, 할당추출, 편의추출)
- 자료의 종류 (명목척도, 서열척도, 등간척도, 비율척도)
- 표본추출방법
-
통계분석 분류
- 기술통계 / 추론통계
- 모수통계 / 비모수통계
-
확률 / 확률분포 (확률곱, 조건부 확률,
- 확률분포 유형
- 이산확률(이항분포,포아송분포,초기하분포,기하분포,음이항분포)
- 연속확률분포(정규분포,표준정규분포,F분포,t분포,카이제곱분포)
- 표본분포(표본오차, 비표본오차, 표본편의, 중심극한정리)
- 표본평균 » 모평균 추정 (중심극한정리, t분포)
- 표본분산 » 분산비교 (카이제곱분포, F분포)
- 추정 및 가설검증 (점추정, 구간추정, 신뢰구간)
- 가설 종류 (귀무가설, 대립가설, 유의수준, 기각역, p값=관측된유의수준)
- 표본오류 (1종오류, 2종오류, 신뢰수준, 검정력)
- 모수검정/비모수검정
- 비모수검정 종류(부호검정, 윌콕슨 부호순위 검정, 맨휘트니 검정, 콜모고로프-스미르노프 검정 )
- 정규성 검정 (QQ plot, 샤피로-윌크 검정, 콜모고스프-스미르노프 검정,앤더슨-달링 검정)
- 확률분포 유형
-
회귀 분석 (개념, 목적, vs 상관분석, 최소제곱법)
-
회귀모형 가정 (선형성, 독립성, 등분산성, 비상관성, 정상성=정규성)
-
다중회귀분석 결과 해석
-
잔차분석 (Residuals vs Fitted , Normal QQ, Scale-Location, Residuals vs Leverag)
-
다중공선성 (팽창계수VIF10, 보정방법-변수제거,능형회귀,주성분회귀,자료보완)
-
회귀분석 적합도검사 (결정계수, 분산분석표,AIC/BIC)
-
변동 제곱합 자유도 평균제곱 F 회귀 SSR 1 MSR = SSR MSR/MSE 오류 SSE n-2 MSE = SSE/n-2 전체 SST n-1
-
-
단계적 변수선택(전진선택법, 후진제거법, 단계별방법)
-
-
다변량분석 = 다중공선성
- 상관분석 (공분산,상관계수-피어슨,스피어만,켄달, 유의성검정)
- 다차원척도법(MDS, 계량적/비계량적, STRESS)
- 주성분분석 (vs 요인분석, biplot, screeplot, 설명력, 고윳값)
-
시계열분석 (정상성, 차분,계절차분/변환)
- 정상성 (시간에 따를 평균,분산,공분산 동일)
- 시계열요소분해
- 평활법
- 이동평균법(MA)
- 지수평활법
- ARIMA 모형법
- 시계열 모형 (자기상관함수-ACF,부분자기상관함수-PACF,잡음)
- 자기회귀모형 - AR(p) // p=PACF 절단-1값
- 이동평균모형 - MA(q) // q = ACF 절단-1값
- 자기회귀누적이동평균모형(ARIMA)
- ARIMA(p,d,q)
- ARMA(p,q) = ARIMA(p,0,q)
- 분해시계열 (추세요인,계절요인,순환요인,불규칙요인)
-
-
데이터마이닝
-
데이터마이닝 개요
- 기능 (기술, 분류, 추정, 예측, 연관분석, 군집)
- 종류 ( 기술적 모형/예측 모형, 비지도학습/지도학습)
- 비지도학습 –> 연관분석, 군집
- 지도학습 –> 분류, 추정, 예측
-
모형평가
-
교차검증 (홀드아웃-70/30, k-fold교차검증,붓스트랩-63.2/36.8)
-
오분류표
-
평가지표 계산식 평가지표 계산식 정확도(accuracy) TP+TN / ALL 오분류율(error rate) FP+FN / ALL 민감도,재현율(recall) TP / TP+FN 특이도(specificity) TN / TN + FP FP Rate 1 - 특이도 정밀도(precision) TP / TP + NP F1 2x민감도x정밀도/민감도+정밀도 F2 F1 / 2 * (1+b^2)/b^2 카파통계량 pre(a) - pr(e) / (1- pr(e))
-
-
ROC 그래프 (x축=오류율, y축=민감도, 성과척도=ROC curve 면적)
-
이익도표
-
구분 수식 %Captured Response 해당등급 Y=1 / 전체 Y=1 %Response 해당등급Y=1 / 해당 등급 자료 수 Baseline Lift 전체 Y=1 / 전체 자료 수 Lift %Response / Baseline Lift
-
-
향상도곡선
-
-
분류분석
- 로지스틱 회귀모델 (오즈, 로짓변환, 시그모이드 함수, 카이제곱)
- 인공신경망 모형 (퍼셉트론, 역전파, 손실함수, 활성함수, 경사하강법)
- 의사결정나무 모형
- 모형분류 (분류나무 - 이산형변수 - 카이제곰, 회귀나무 - 연속형변수 - F값)
- 불순도 측정 (카이제곱, 엔트로피, 지니계수 - 클수록 불순도 높음)
- 알고리즘 - 분류유형 (CHAID-카이제곱 통계량, C4.5 -엔트로피 지수, CART - 지니지수)
- 앙상블 모형 (배깅, 부스팅, 랜덤포레스트, 스태킹)
- 서포트 벡터 머신 (SVM)
- 나이브 베이즈 분류모형
- K-NN(K 최근접이웃법)
-
군집분석
- 계층적군집 (지역적 최적화, 군집수명시X)
- 응집형 (최단연결법, 최장연결법, 평균연결법, 중심연결법, 와드연결법)
- 분리형 (다이아나 방법)
- 분할적 군집(군집 수 명시, 이상값에 영향받음, U형태 군집시 성능저하,Nbclust)
- 프로토타입기반 ( 퍼지군집 / K-중심 군집 -> k평균 군집, k중앙값군집, k메도이드 군집 )
- 분포기반 (혼합분포군집-EM알고리즘)
- 밀도기반 (중심밀도군집, 격자기반군집)
- SOM(자기 조직화지도)
- 계층적군집 (지역적 최적화, 군집수명시X)
-
연관분석
- 측정지표 (지지도, 신뢰도, 향상도)
- apriori 알고리즘
- 순차패턴
-