[ADsP] 데이터분석 주제 정리

😃

데이터 분석 과목에서 다루는 주제들이 생각보다 넓다보니 한눈에 보기가 쉽지 않다. 각 기술들에 상세한 분석을 하기전에 전체적인 흐름을 정리하고자 한다.


  1. R 기초

  2. 통계분석

    1. 통계분석 개요 (모집단, 표본, 표본추출방법)

      1. 표본추출방법
        1. 확률적추출 (단순 무작위 추출, 계통추출, 층화 추출, 군집 추출)
        2. 비확률적 추출 (판단추출, 할당추출, 편의추출)
      2. 자료의 종류 (명목척도, 서열척도, 등간척도, 비율척도)
    2. 통계분석 분류

      1. 기술통계 / 추론통계
      2. 모수통계 / 비모수통계
    3. 확률 / 확률분포 (확률곱, 조건부 확률,

      1. 확률분포 유형
        1. 이산확률(이항분포,포아송분포,초기하분포,기하분포,음이항분포)
        2. 연속확률분포(정규분포,표준정규분포,F분포,t분포,카이제곱분포)
      2. 표본분포(표본오차, 비표본오차, 표본편의, 중심극한정리)
        1. 표본평균 » 모평균 추정 (중심극한정리, t분포)
        2. 표본분산 » 분산비교 (카이제곱분포, F분포)
      3. 추정 및 가설검증 (점추정, 구간추정, 신뢰구간)
        1. 가설 종류 (귀무가설, 대립가설, 유의수준, 기각역, p값=관측된유의수준)
        2. 표본오류 (1종오류, 2종오류, 신뢰수준, 검정력)
        3. 모수검정/비모수검정
          1. 비모수검정 종류(부호검정, 윌콕슨 부호순위 검정, 맨휘트니 검정, 콜모고로프-스미르노프 검정 )
        4. 정규성 검정 (QQ plot, 샤피로-윌크 검정, 콜모고스프-스미르노프 검정,앤더슨-달링 검정)
    4. 회귀 분석 (개념, 목적, vs 상관분석, 최소제곱법)

      1. 회귀모형 가정 (선형성, 독립성, 등분산성, 비상관성, 정상성=정규성)

      2. 다중회귀분석 결과 해석

      3. 잔차분석 (Residuals vs Fitted , Normal QQ, Scale-Location, Residuals vs Leverag)

      4. 다중공선성 (팽창계수VIF10, 보정방법-변수제거,능형회귀,주성분회귀,자료보완)

      5. 회귀분석 적합도검사 (결정계수, 분산분석표,AIC/BIC)

        1. 변동 제곱합 자유도 평균제곱 F
          회귀 SSR 1 MSR = SSR MSR/MSE
          오류 SSE n-2 MSE = SSE/n-2
          전체 SST n-1
      6. 단계적 변수선택(전진선택법, 후진제거법, 단계별방법)

    5. 다변량분석 = 다중공선성

      1. 상관분석 (공분산,상관계수-피어슨,스피어만,켄달, 유의성검정)
      2. 다차원척도법(MDS, 계량적/비계량적, STRESS)
      3. 주성분분석 (vs 요인분석, biplot, screeplot, 설명력, 고윳값)
    6. 시계열분석 (정상성, 차분,계절차분/변환)

      1. 정상성 (시간에 따를 평균,분산,공분산 동일)
      2. 시계열요소분해
      3. 평활법
        1. 이동평균법(MA)
        2. 지수평활법
      4. ARIMA 모형법
      5. 시계열 모형 (자기상관함수-ACF,부분자기상관함수-PACF,잡음)
        1. 자기회귀모형 - AR(p) // p=PACF 절단-1값
        2. 이동평균모형 - MA(q) // q = ACF 절단-1값
        3. 자기회귀누적이동평균모형(ARIMA)
          1. ARIMA(p,d,q)
          2. ARMA(p,q) = ARIMA(p,0,q)
        4. 분해시계열 (추세요인,계절요인,순환요인,불규칙요인)
  3. 데이터마이닝

    1. 데이터마이닝 개요

      1. 기능 (기술, 분류, 추정, 예측, 연관분석, 군집)
      2. 종류 ( 기술적 모형/예측 모형, 비지도학습/지도학습)
        1. 비지도학습 –> 연관분석, 군집
        2. 지도학습 –> 분류, 추정, 예측
    2. 모형평가

      1. 교차검증 (홀드아웃-70/30, k-fold교차검증,붓스트랩-63.2/36.8)

      2. 오분류표

        1. 평가지표 계산식 평가지표 계산식
          정확도(accuracy) TP+TN / ALL 오분류율(error rate) FP+FN / ALL
          민감도,재현율(recall) TP / TP+FN 특이도(specificity) TN / TN + FP
          FP Rate 1 - 특이도 정밀도(precision) TP / TP + NP
          F1 2x민감도x정밀도/민감도+정밀도 F2 F1 / 2 * (1+b^2)/b^2
          카파통계량 pre(a) - pr(e) / (1- pr(e))
      3. ROC 그래프 (x축=오류율, y축=민감도, 성과척도=ROC curve 면적)

      4. 이익도표

        1. 구분 수식
          %Captured Response 해당등급 Y=1 / 전체 Y=1
          %Response 해당등급Y=1 / 해당 등급 자료 수
          Baseline Lift 전체 Y=1 / 전체 자료 수
          Lift %Response / Baseline Lift
      5. 향상도곡선

    3. 분류분석

      1. 로지스틱 회귀모델 (오즈, 로짓변환, 시그모이드 함수, 카이제곱)
      2. 인공신경망 모형 (퍼셉트론, 역전파, 손실함수, 활성함수, 경사하강법)
      3. 의사결정나무 모형
        1. 모형분류 (분류나무 - 이산형변수 - 카이제곰, 회귀나무 - 연속형변수 - F값)
        2. 불순도 측정 (카이제곱, 엔트로피, 지니계수 - 클수록 불순도 높음)
        3. 알고리즘 - 분류유형 (CHAID-카이제곱 통계량, C4.5 -엔트로피 지수, CART - 지니지수)
      4. 앙상블 모형 (배깅, 부스팅, 랜덤포레스트, 스태킹)
      5. 서포트 벡터 머신 (SVM)
      6. 나이브 베이즈 분류모형
      7. K-NN(K 최근접이웃법)
    4. 군집분석

      1. 계층적군집 (지역적 최적화, 군집수명시X)
        1. 응집형 (최단연결법, 최장연결법, 평균연결법, 중심연결법, 와드연결법)
        2. 분리형 (다이아나 방법)
      2. 분할적 군집(군집 수 명시, 이상값에 영향받음, U형태 군집시 성능저하,Nbclust)
        1. 프로토타입기반 ( 퍼지군집 / K-중심 군집 -> k평균 군집, k중앙값군집, k메도이드 군집 )
        2. 분포기반 (혼합분포군집-EM알고리즘)
        3. 밀도기반 (중심밀도군집, 격자기반군집)
      3. SOM(자기 조직화지도)
    5. 연관분석

      1. 측정지표 (지지도, 신뢰도, 향상도)
      2. apriori 알고리즘
      3. 순차패턴