Notice
Recent Posts
Recent Comments
Link
«   2025/09   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30
Archives
Today
Total
관리 메뉴

파이썬 하는 파이리

ADsP 3과목 본문

자격증/ADsP

ADsP 3과목

gunnwu 2023. 1. 13. 21:53

3과목

1. 통계분석(회귀분석, 다차원척도법(MDS), PCA, 시계열분석)

 

1. 표본추출방법

 

1-1.확률적 추출 : 개별 개체가 표본으로 선택될 확률이 정해져 있는 경우

-단순랜덤추출법 : 샘플에 번호 부여 임의의 n개 추출, 선택확률 동일

-계통추출법 : k개씩 띄어서 표본 선택, k번째 항목을 추출

-층화추출법 : 몇 개의 층으로 나누어

-군집추출법 : 군집별로 단순랜덤 추출법 수행

 

1-2.비확률적 추출 : 확률이 정해져 있지 x 일부 개체가 선택될 가능성이 전혀 없음

-판단추출 : 개인의 판단에 따라

-할당추출 : 집단을 나워 필요한 개수의 표본 선택 후 개인의 판단

-편의추출 : 쉽게 접근 가능한 표본 선택

 

2.자료의 종류

2-1.질적변수

-명목척도 : 어느 집단에 속하는가? 범주형 (서울,부산 YES.NO)

-순서척도 : 서열관계 관측 (만족도(good bad), 선호도, 신용등급, 학년), 스피어만 상관관계(비모수)

2-2.양적변수

-구간척도 : 구간 사이의 간격(온도,지수) - 0이 정의되지 않음

-비율척도 : 간격에 대한 비율이 의미(무게,나이,시간,거리)-0이 존재

 

3.기술통계와 추측통계

3-1. 기술통계 : 수량화 하여 객관적인 데이터로 표현 : 평균,표준편자,중위수 etc

3-2. 추측통계 :샘플을 통해 모집단 추정/가설검증, 모수, 통계량 : 회귀분석, 시계열분석, 다차원척도법, 주성분분석

 

4. 확률변수와 확률분포

1. 확률변수 : 정의역이 표본공간이고 치역이 실숫값인 함수

1-1. 이산형 확률변수 : 사건의 확률이 확률의 합으로 표현 가능. 베르누이, 이항, 기하, 다항 -이산형확률질량함수

1-2. 연속형 확률변수 : 0보다 큰 값을 갖는 함수의 면적으로 표현할 수 있는 것-확률밀도함수

 

2. 확률분포 : 치역에 해당하는 실숫값을 확률로 나타낸 것

2-1. 이산형확률분포

-이항분포 : 베르누이 n번 시행(모수가 두 개)

-포아송분포 : 단위 시간당, 단위 공간당

-기하분포 : 실패를 거듭하는 경우

-초기하분포 : 성공확률이 일정 x (서로 종속)

-음이항분포 : 베르누이를 독립으로 반복 시행 k번 성공하기까지의 시행횟수 x의 확률분포

-베르누이 분포 : 모수가 하나이며 서로 반복되는 사건이 일어나는 실험을 확률분포로 나타낸 것.

2-2.연속형확률분포

-정규분포 : 가우스 분포

-표준정규분포 : 표준화

-카이제곱분포 : 모평균과 모분산이 알려지지 않은 모집단의 모분산에 대한 가설검정=>두 집단 간 동질성 검정(범주형)

자유도(n-1) 표본크기 클수록 정규분포 근접, 오른쪽으로 긴 꼬리, 음수x, 가장 왼쪽=0

-지수분포 : 대기시간에 대한 분포

-t-분포 : 표본 30개 미만, 자유도 (n-1)=>두 집단의 평균이 동일한지 알고자(범주형 집단 간 평균차이검정)

-F-분포 : 자유도 두 개 (n1-1),(n2-1), 분산분석과 회귀분석에 사용=>두 집단 간의 분산의 동질성 검정

5.모수적 검정과 비모수적 검정

-모수적 검정 : 모수 많다. 모집단 수에 가설설정=> 표본평균, 표본분산

<평균은 t분포, 분산은 F분포, 집단은 x^2분포 따름>

 

-비모수적 검정 : 모수 적다. 분포에 가설설정=>순위(스피어만 순위상관계수), 부호검정

 

6. 상관분석 : x,y의 연관성

1.피어슨 상관계수 : 등간척도, 비율척도, 연속성/정규성, 적률상관계수=>선형관계(등분산성)

r= 공분산(x,y)/표준편차(x),표준편차(y)

2.스피어만 상관계수 : 서열척도, 비모수적 방법, 순위상관계수=>선형, 비선형 측정가능

+1: 양쪽증가

-1: 한쪽증가 한쪽 감소

0: 순위증가의 연관 x

 

7. 가설검정

귀무가설이 옳다는 전제 하에 검정통계량 값을 구한 후에 이 값이 나타날 가능성의 크기(p-value)에 의해 귀무가설의 채택여부를 결정한다.

-귀무가설(H0) : '비교하는 값과 차이가 없다, ‘동일하다' 를 기본개념으로 하는 가설

-대립가설(H1) : 뚜렷한 증거가 있을 때 주장하는 가설

-검정통계량 : 관찰된 표본으로부터 구하는 통계량 (가설의 진위를 판단하는 기준), H0T 가정 하에 얻은 stastic

(검정통계량 high=>p-value low=> H0 기각=>유의함)

-유의수준() : 귀무가설을 기각하게 되는 확률의 크기로 '귀무가설이 옳은데도 이를 기각하는 확률의 크기'

-기각역(C) : 귀무가설이 옳다는 전제 하에서 구한 검정통계량의 분포에서 확률이 유의수준 인 부분 (<-> 채택역)

결정 실제상황 H0가 사실 H0가 거짓
H0 채택 옳음 =1-알파 2종오류 (베타)
H0 기각(H1선택) 1종오류 (알파) 옳음=1-베타

1종오류 : 참인데 기각하는 것 (코로나가 양성인데 음성판정) -더 큰 오류 따라서 알파오류 통제

 

8.기술통계 : 자료를 요약하는 기초적 통계

-왜도 : 분포의 비대칭정도를 나타내는 측도 (양수인 경우 왼쪽으로 밀집, 0일 때 좌우대칭)

양수: 오른쪽 꼬리, 음수 : 왼쪽 꼬리

->왜도의 크기에 따라 평균값과 중앙값, 최빈값이 바뀜

->왜도가 양수인 경우 최빈값 < 중앙값 < 평균, 0인 경우 최빈값 = 중앙값 = 평균

<boxplot> ; 통계적으로 유의미함 알 수 없음.

 

 

9.추측통계

10. 회귀분석

정의=>독립변수(설명변수,예측변수)에 따라 종속변수(반응변수,결과변수)의 변화를 예측하거나 영향력을 분석

-선형회귀분석의 가정(단순선형, 다중선형 모두 포함)

1. 선형성

2. 등분산성

3. 정규성

4. 독립성 : 더비왓슨 검정

5. 비상관성 : 잔차끼리 상관 x

표본회귀선의 유의성 검정은 귀무가설 회귀식 기울기=0 귀무가설, 회귀식 기울기!=0 대립가설

 

10-2. 단순선형회귀분석(산점도만 고려)-연속형 변수일 때 가능

1. 회귀계수의 t 통계량의 p-value0.05보다 작으면 해당 회귀계수가 통계적으로 유의함

2. 회귀계수 추정(최소제곱법)

3. 결정계수(R^2)0~1의 값을 가지며 높은 값을 가질수록 회귀모형의 설명력이 높음

4. 회귀직선의 적합도 검토

- 결정계수(R^2)를 통해 추정된 회귀식이 얼마나 타당한지 검토 (1에 가까울수록 회귀모형이 자료를 잘 설명함)

- 독립변수가 종속변수 변동의 몇 %를 설명하는지 나타내는 지표

- 다변량 회귀분석에서는 독립변수의 수가 많아지면 결정계수(R^2)가 높아지는 단점이 있음

=>수정된 결정계수(Rj^2) 활용 (R^2보다 작은 값으로 산출)

 

10-3. 다중회귀분석(5개 가정 모두 고려)

- 모형의 통계적 유의성 F통계량 으로 확인

- 유의수준 5% 하에서 F통계량의 p-value값이 0.05보다 작으면 추정된 회귀식은 통계적으로 유의

- F통계량이 크면 p-value0.05보다 작아지고, 이렇게 되면 귀무가설을 기각함 (모형 유의함)

- 회귀계수의 유의성은 단 변량 회귀분석과 같이 t 통계량을 통해 확인

- 데이터가 전제하는 가정을 만족 : 선형성, 독립성, 등분산성, 비상관성, 정상성

- 다중공선성(VIF) : 다중회귀분석에서 설명변수들 사이에 선형관계가 존재하면 회귀계수의 정확한 추정이 곤란

=>능형회귀분석 (릿지분석) : 회귀계수에 제약을 건다.

-잔차분석의 결과 U자형이면->이차항을 모형에 추가

-자유도=자료의 개수-(변수의 수+1)

10-4. 최적회귀방정식

(1) 단계적 변수선택

-전진선택법(forward) : 중요한 변수부터 추가, 작은변동에도 크게 달라짐(안정성 부족)

-후진제거법(backward) : 가장 적은 영향을 주는 변수부터 제거(변수의 개수 많으면 사용 어려움)

한번 제거된 변수는 다시 추가 불가능

-단계선택법(stepwise) : 두 개 합친거

 

(2) AICBIC 방법

=>AICBIC이 최소가 되는 모형

 

10-5 ANOVA(분산분석표)

R^2(결정계수) : SSR/SST

<ANOVA>

변동 제곱합 자유도 평균제곱 F
회귀 SSR 1 MSR(1/SSR) MSR/MSE
오차 SSE n-2 MSE(SSE/n-2)  
전체 SST n-1    

10-6. 더비변수(가변수)를 이용한 회귀분석 : 명목척도나 범주형 척도의 자료를 독립변수의 가변수로 변화하여 회귀분석

 

10-7. 정규화 (릿지(L2 norm)-제곱상수에 페널티(타원) ,라쏘((L1 norm)-절대값에 페널티(마름모), 엘라스틱넷)

-좋은모델? : training data를 잘 설명, testing data에 대한 예측성능 우수

Bias , Variancetrade off 관계 But=> 둘 다 작은게 좋음

-최소제곱법 : Bias에 초점

-training data : low Bias

-teating data : high Variance=> Overfiting 문제(훈련데이터 잘 설명. 검증데이터의 분류, 예측성능 별로)

-회귀계수에 람다(𝛌)라는 제약을 건다

-𝛌 가 크다 : High Bias => underfiting

-극단적으로 커지면 베타값이 0 : 선형회귀

-𝛌 가 작다 : High variance => overfiting

11. 다차원척도법(MDS)

-동일한 상대적 거리를 가진 실수 공간의 점들로 배치

-개체들 사이의 거리(유사성/비유사성)을 측정하여 개체들을 2차원 또는 3차원상 공간에 점으로 표현

-근접도를 나타내는 척도, 오차나 잡음 포함

-부적합도 : STRESS : 0=> 완벽, <0.05=>매우 좋음

 

11-1 계량적 MDS

-데이터가 구간(비율)척도인 경우 활용, 유클리드 거리행렬 사용

11-2 비계량적 MDS

-순서척도인 경우 활용

 

12. PCA(주성분 분석)

-차원의 저주=>차원축소(변수의 수 줄이기)

-Overfiting 문제

-eigen vector : 벡터에 작용하는 주축의 방향, 어떤 방향으로 분산되어 있는가

-eigen value : 큰 순서대로 정렬하면 결과적으로 중요한 순서대로 주성분을 구하는 것.

-정단위에 따라 분산이 크게 달라진다. =>표준화 진행

-공분산 행렬 : 측정단위 그대로, 상관행렬 : 측정단위 표준화

12-1. 주성분개수 선택방법

-누적기여율 : cumulative85% 이상(70~ 90%) 사이가 되는

-고윳값(eigen value): 1이상의 주성분

-Scree Plot : 급격하게 줄어드는 지점, eigen value가 수평을 유지하기 전 단계로 주성분 수 선택

 

13. 시계열 분석

-시간의 흐름에 따라 관측된 데이터 : 시계열 데이터

-분석을 위해 정상성 만족

-정상성 : 평균(차분)은 시간 t에 상관없이 일정, 분산(변환) 시간 t에 상관없이 일정, 공분산은 시차에 의존

=>하나라도 만족x=> 비정상 시계열=>1,2차 차분을 통해=>정상시계열로 만듬

정상시계열 : 시점에 상관없이 시계열이 일정

분해시계열 : 시계열 영향 요인들을 분리해 분석, 회귀분석적인 방법 함수: decompose()

(추세요인(T), 계절요인(S)-고정된 주기, 순환요인(C)-알려지지 않은 주기, 불규칙요인(I)-오차에 해당, 미지의 함수(f) )

차분 : 현 시점의 자료값-전 시점 자료값

13-1. 시계열 분석방법

 

1. 시계열 요소 분해법 : 4가지 변동요인을 찾아 시각적으로 분석(추세와 계절변동요인 : 추세선)

 

2. 평활법 : 뾰족한 작은 변동을 제거하여 부드러운 곡선으로 시계열 자료를 조절

 

2-1. 이동평균법(MA)

- 과거로부터 현재까지의 [일정 기간] 시계열 자료를 대상으로 일정 기간별 이동평균을 계산하고, 이들의 추세를 파악해 다음 기간을 예측

- 간단하게 미래 예측 가능, 자료의 수가 많고 안정된 패턴을 보이면 예측 품질이 높음

- 특정 기간 안에 속하는 시계열에 대해서는 동일한 가중치 부여

- 적절한 기간 n을 적절하게 결정하는 것이 중요

- 계절변동, 불규칙 변동 제거 => 추세변동, 순환변동만 존재

 

2-2. 지수평활법

- 모든 시계열 자료를 사용해 평균을 구하고, 시간의 흐름에 따라 최근 시계열에 더 많은 가중치를 부여하여 미래를 예측함

- 단기간에 발생하는 불규칙변동을 평활하는 방법

- 자료의 수가 많고, 안정된 패턴을 보이면 예측 품질이 높음

- 가중치 역할을 하는 것은 지수평활계수(ᵅ)이고, 불규칙변동이 큰 시계열의 경우 지수평활계수는 작은 값을 적용(generally, ᵅ is between 0.05 and 0.3)

- 지수평활계수는 예측오차를 비교해 예측오차가 가장 작은 값을 선택하는 것이 바람직함

- 지수평활계수는 과거로 갈수록 지속적으로 감소

- 지수평활계수는 불규칙변동의 영향을 제거하는 효과가 있음

 

13-3.시계열 분석방법

<정상성을 가진 시계열 모형>

1. 자기회귀모형 (AR, AutoRegressive Model)

- p 시점 전의 자료가 현재 자료에 영향을 주는 모형

- 자기상관함수(ACF)는 빠르게 감소하고, 부분자기함수(PACF)는 어느 시점에서 절단점 가짐

2. 이동평균모형 (MA, Moving Average Model)

- 유한한 개수의 백색잡음의 결합이므로 언제나 정상성을 만족

- 1차 이동평균모형은 MA 모형 중 가장 간단함. 시계열이 같은 시점의 백색잡음과 바로 전 시점의 백색잡음의 결합으로 이루어짐

- 2차 이동평균모형은 바로 전 시점의 백색잡음과 시차가 2인 백색잡음의 결합으로 이루어짐

- AR 모형과 반대로 ACF에서 절단점을 갖고, PACF가 빠르게 감소

 

<비정상성을 가진 시계열 모형>

3. 자기회귀누적이동평균 모형 ARIMA(p, d, q)

- 차분이나 변환을 통해 AR모형이나 MA모형, ARIMA 모형으로 정상화

- pAR 모형, qMA 모형과 관련된 차수

- 시계열의 d번 차분한 시계열이 ARMA(p, q) 모형이면, 차수가 p, d, qARIMA 모형임

- p=0 이면 IMA(d, q) 모형 d번 차분하면 MA(q) 모형

- q=0 이면 ARI(p, d) 모형 d번 차분하면 AR(p) 모형

- d=0 이면 ARMA(p, q) 모형 : 정상성 만족

 

14. 정형데이터 마이닝

데이터 마이닝? 데이터베이스,데이터웨어하우스, 데이터 마트 등 자료 저장소에 저장되어 있는 방대한 양의 데이터로부터 의사결정에 도움이 되는 유용한 정보를 발견하는 일련의 작업

 

15.데이터 마이닝의 6가지 기능

-분류 : 의사결정나무

-추정 : 연속된 변수의 값을 추정, 신경망 모형

-예측 : 장바구니분석, 의사결정나무, 신경망

-연관분석 : 장바구니 분석

-군집 : 모델링의 준비단계

-기술 : 사람, 상품의 관한 이해 증대를 위해 데이터의 특징 및 의미 표현 및 설명

구분 내용 기법
비지도 연관성이나 유사성
y없다
연관규칙(기술적모형화)
군집분석
지도 y있다
분류(범주형)와 예측(연속형)
(예측모형화)
의사결정나무
인공신경망
사례기반추론
로지스틱 회귀분석

 

16.모형평가

 

16-1. 모형평가의 기준

-일반화의 가능성

-효율성

-예측과 분류의 정확성

 

17. 교차검증=>충분한 정확도로 일반화

-Training set (분류기를 만들 때, 모델 학습시), Validation set(과대추정,과소추정 미세조정, 분류기 파라미터 최적화), test set(성능검증) 으로 나누어 검증 => 과적합 문제 해결, 2종오류 발생 방지

<데이터 충분시>

- Training Data 50%, Validation Data 30%, Test Data 20%

- 일반적으로 test set에 대한 모형평가 결과가 train set에 대한 모형평가 결과보다 좋게 나타날지는 알 수 없음

<데이터 불충분시>

17-1. 홀드아웃 방법

-훈련용 데이터(70%)와 검정용 데이터(30%)로 분리해 교차검증

 

17-2. k-fold 교차검증

-주어진 데이터를 k개의 하부집단으로 구분하여, k-1개의 집단을 학습용으로, 나머지는 하부집단으로 검증용으로 설정해 학습. k번 반복 측정한 결과의 평균값을 최종값으로 사용함 (ex. 10-fold 교차분석)

 

17-3. 붓스트랩

-단순랜덤 추출법 동일한 표본크기의 표본을 여러 개 생성

-훈련용 자료를 반복 재산정함

-전체 데이터 양이 크지 않은 경우의 모형평가에 가장 적합

-포함될 확률 63.2% , 선택x 확률 :36.8%(평가용 데이터에 활용)

 

18.분류모형 평가지표

 

18-1. 오분류표(Confusion Matrix)

  예측 T 예측 F
실제 T TP FN
실제 F FP TN

-정확도(Accuracy) : TP+TN/전체 맞게 예측한거/전체

-오분류율(Error rate) : 1-정확도

-민감도(재현율) : 예측P/실제P : TP/TP+FN

-특이도 : 예측N/실제N : TN/FP+TN

-정밀도(precison): 실제P/예측P : TP/TP+FP

-F1 : 2*(정밀도*민감도)/(정밀도+민감도)

-F2 : 재현율에 정확도의 2배만큼의 가중치

18-2. ROC 그래프

-X: 1-특이도 (0일 때 최고)

-Y: 민감도 (1일 때 최고)

(0,1)일 때 (밑부분 면적) AUC=1

AUC : 0.5~1의 범위 (0.5는 분류성능 븅신)

왼쪽 상단에 가깝게 그려질수록 올바르게 예측

 

18-3. 이익도표

-이익값을 누적으로 연결한 도표

-등급별로 얼마나 포함되는가

 

18-4. 향상도 곡선(Lift Curve)

-랜덤모델과 비교하여 해당 모델의 성과가 얼마나 향상되었는지 등급별로 파악하는 그래프

-상위등급 향상도 증가

-하위등급 향상도 감소

=>예측력 좋다

-좋은 모델이라면 향상도가 빠른 속도가 감소해야함

-등급 간 관계가 없다=>예측력 븅신

-prediction 함수 사용

 

19. 분류분석

-반응변수가 범주형=> 분류

-반응변수가 연속형=> 에측

 

19-1. 로지스틱 회귀모델

-결과변수가 범주형인 경우 적용되는 회귀분석모형

-로지스틱 회귀모형은 클래스가 알려진 데이터에서 설명변수들의 관점에서 각 클래스내의 관측치들에 대한 유사성 찾는데 사용할 수 있음

-이항분포를 따른다

-모형의 적합을 통해 추정된 확률을 사후확률(Posterior Probability) 이라고 함

- exp(ẞ1)의 의미는 나머지 변수(x1, ..., xk)가 주어질 때, x1이 한 단위 증가할 때마다 성공(Y=1)의 오즈(Odds)가 몇 배 증가하는지를 나타내는 값임

- 그래프 형태는 설명변수가 한 개(x1)인 경우 해당 회귀 계수 ẞ1의 부호에 따라 S자 모양 (ẞ1>0)

- 오즈비(Odds) = p/(1-p) 오즈는 성공할 확률(p)이 실패할 확률(1-p)의 몇 배인지를 나타내는 확률

- 종속변수 y의 값 범위를 [0, 1]로 조정하기 위해 로짓(logit) 변환을 사용(곡선->직선으로 변화)

- `glm() 함수를 사용해 로지스틱 회귀분석 실행함

  일반선형 회귀분석 로지스틱 회귀분석
종속변수 연속형 변수 이산형 변수
모형 탐색 방법 최소자승법 최대우도법, 가중최소자승법
모형 검정 F-test, t-test(두 범주형 집단의 평균차이) x^2 test

19-2. 인공신경망

(1)정의

-신경망의 가중치 초기화, 훈련데이터를 통해 가중치 갱신하여 신경망 구조 선택, 학습 알고리즘 결정 후 신경망 훈련

-잡음이 많아도 좋은성능, 변수들 사이의 복잡한 관계 우수하게 파악(잡음과 이상치에 민감x)

-많은양의 데이터 필요, 결과 해석 어려

-분석가의 주관과 경험을 따른다

(2) 퍼셉트론

-입력층과 출력층으로 구분 : 활성화 함수에 따라 값이 출력

-선형분리만 가능->다층 퍼셉트론

-다층퍼셉트론

-하나 이상의 은닉층을 두어 비선형으로 분리되는 데이터에 대해 학습 가능

-은닉층을 많이 거치면 오차감소 따라서 학습 불가능인 기울기 소실 문제발생=>ReLu function 사용

-중간에 존재하는 은닉층으로 인해 직접 비교 불가능=> 역전파 알고리즘 사용, 출력층 노드 수=입력차원의 수로 결정.

-닉층 적다?=>네트워크가 복잡한 의사결정 경계를 만들 수 없다, 과소적합 | 은닉층 많다?=>과대적합문제

 

(3) 역전파 알고리즘 : 출력부터 반대방향으로 편미분 수행 후 가중치와 바이어스를 갱신, 손실함수 최솟값이 되도록

 

(4) 활성화 함수(문제의 종류에 따라 활성화 함수 선택)

계단함수(step function) 임계값 0,1 기준 활성화 비활성화
부호함수(sign function) 임계값 기준 +1,-1출력
시그모이드 함수 로지스틱 함수 항상 곡선으로 0~1의 값 출력
tanh 함수 하이퍼볼릭 탄젠트 함수
확장된 시그모이드
-1~1사이의 값
ReLu 함수 입력값 < 0=>0 출력
입력값 > 0=>입력값 출력
소프트맥스 함수 목표값 범주형 사후확률 구하는 함수
정규화하여 0~1사이의 값 출력
노드의 출력값 항상 1

 

19-3. 의사결정나무

(1) 정의 : 분류함수를 의사결정 규칙으로 이뤄진 나무 모양으로 그리는 방법

(2) 특징 : 계산결과의 시각화로 해석이 간편

 

(3) 분리규칙

- 분리변수가 연속형일 때

- 분리변수가 범주형일 때, A = 1, 2, 4Ac = 3으로 나눌 수 있음

- 최적분할의 결정은 불순도 감소량을 가장 크게 하는 분할

- 분리변수의 P차원 공간에 대한 현재 분할은 이전 분할에 영향을 받는다.

- 노드내에서 동질성 노드간 이질성

 

(4) 분리기준

-부모마디에 비해 자식마디에서 순수도가 증가하는 정도(불순도가 감소하는 정도)

 

(5)정지규칙과 가지치기

 

정지규칙 :불순도가 떨어지지 않는 경우 분리를 중단

의사결정나무의 깊이(depth)를 지정하고, 끝마디의 레코드 수의 최소 개수를 지정한다

가지치기 Pruning : 의사결정나무의 깊이가 길어지면 과적합이 발생할 수 있음=나무의 크기는 곧 복잡도

나무의 크기 = 모형의 복잡도

 

(6) 불순도 측정

-카이제곱 통계량

-지니지수 : 노드의 불순도 0에 가까울수록 좋음 <순수도 높다>

-엔트로피 지수 <작을수록 순수도 높다>

<하향식 재귀적 분할 방식> 이산형 연속형
CHAID 카이제곱 p-v가 작은거 ANOVA F통계 작은거
CART 지니지수 작은거 분산감소량 커지는거
C4.5 C5.0 엔트로피 작은거  

 

 

 

19-4. 앙상블 모형-상호 관련성이 높으면 분류가 어렵다

(1) 배깅

-크기가 같은 표본을 단순 임의 복원추출하여 각 붓스트랩 표본에 대해 분류기를 생성한 후 결과를 앙상블

-분산을 감소시키기 위해 편향이 작고 분산이 높은 모델에 효과적

-붓스트랩 방법 => 작은 데이터라도 정규분포를 형성 시켜 모집단의 평균 추정가능 (63.8%,38.2%)

 

(2) 부스팅

-분류가 잘못된 데이터에 가중치를 주어 표본 추출

-약한분류기에 가중치를 부여하여 강한 분류기로 만든다

 

(3) 랜덤 포레스트-매번 분할을 수행할 때마다 설명변수의 일부분을 고려하여 성능향상

 

-배깅에 랜덤과정을 추가

-예측변수를 임의로 추출하고 추출된 변수 내에서 최적의 분할을 만듬

-(분류, 다수결), (회귀, 평균)=>다른 앙상블 모형도 동일

-의사결정 나무의 과소적합, 과대적합 문제 해결

-전체 변수를 매번 고려하는게 아닌 변수의 일부를 임의로 선택

1) 변수의 중요도 평가- 각 변수들이 지니 또는 정확도에 얼만큼 기여하는지

2) 랜덤포레스트의 파라미터 트리갯수, 각 노드에서 가지를 칠 때 고려할 변수의 개수 등의 파라미터

3) OBB 모델 훈련에 사용되지 않은 데이터를 사용한 에러 추정치의 출력지표

 

19-5. 서포트 벡터머신(SVM)

고차원 또는 무한 차원의 공산에서 초평면을 찾아 분류와 회귀를 수행

지도학습, 이진분류기(두개의 범주를 분류)

비확률적 이진 선형 분류모델 생성 -> 분류와 회귀분석을 위해

직선 : 선형분류 모델, 직선x : 비선형 분류모델( 커널트릭이라는 맵핑기법 사용)

마진 : 가장 가까운 훈련용 자료까지의 거리 -> 마진이 큰 초평면 분류기 : 오분류가 가장 낮다

노이즈 영향 적고, 과적합 위험 적다.

파라미터와 커널선택에 민감, 데이터 셋이 클 경우 모델링에 큰 시간 소요

Cost 비용의 합을 최소화하는 선을 찾고 과적합을 조정

 

19-6. 나이브 베이즈 분류모형

-사후확률은 사전확률을 통해 예측가능

-지도학습에서 효율적 훈련데이터 적어도 사용가능

 

19-7. K-NN

-반응변수 범주형 : 분류 연속형 : 회귀

-게으른 모델, 사례기반 학습

 

20. 군집분석

-유사도 거리가 높은 대상 집단을 분류하는 방법

-이상값 탐지나 심리학, 사회학, 경영학, 생물학에 사용

 

21. 계층적 군집분석

-군집개수를 정하지 않고 거리유사도를 통해 군집을 줄여나가는 방법(병합적, 분할적)

-덴드로그램의 형태로 표현

지역적 최적화를 수행하는 방법, 전역적 최적해(x)

병합적 방법에서는 한 번 군집 형성되면 다른 군집으로 이동 불가능

 

21-1. 계층적 군집의 거리 측정법

군집방법 두 군집 사이거리
단일연결법(최단연결법) 가장 짧은 거리, 사슬모양, 고립된 군집 찾기
완전연결법(최장연결법) 가장 최대거리,군집들의 내부 응집성 중심
평균연결법 모든 항목에 대한 거리 평균, 계산량 많음
중심연결법 두 군집이 결합시 가중평균
와드연결법 군집 내 오차제곱합, 정보손실 최소화

21-2. 계층적 군집의 거리

(1) 연속형 변수

종류 설명
유클리드안거리 직선거리
맨해튼 거리 두 점간 절대값을 합한 값
민코프스키거리 m=1 : 맨해튼
m=2 : 유클리디안
표준화 거리 변수의 측정단위 표준화
마할라노비스 거리 변수 간의 표준화와 상관성을 고려
공분산으로 나눠줌

(2) 명목형 자료 거리

거리 정의
단순일치계수 매칭된속성의 개수/속성의 개수
=전체 속성 중 일치하는 속성
자카드 계수 두 집합 간의 유사도
01사이의 값
동일:1, 공통원소x :0

(3) 순서형 자료 거리

거리 내용
순위상관계수 스피어만 상관계수

(4) 기타 거리

거리 정의
캔버라 거리 가중치 있는 맨해튼
원점 주변 흩어진 데이터에 사용
코사인 유사도 1-(벡터내적/각 벡터 크기)
-1~1사이의 값
같은 방향(각도0)=1=>유사도 크다
반대 방향=-1=>유사도 작다
체비셰프 거리 체스판거리, x,y좌표 차이 중 큰 값을 갖는 거리

 

 

22. 비계층적 군집

-군집의 개수(k)를 초기에 정하고 seed 중심으로 95%형성->나머지 seed 계속 반복

 

22-1. K-평균군집

-원하는 군집 수만큼 초기값을 지정하고 각 개체를 초기값에 할당(평균으로부터 오차제곱합 최소가 되도록)하여 군집 형성, 각 군집의 평균 재계산하여 초기값 갱신

-k개의 최종군집을 형성

-계산량이 적다. 많은 양 분석이 가능, 초기군집 개체 이동가능, 연속형 등 모든 형태의 데이터에 적용 가능.

-초기 군집수/가중치 정의 어려움, 해석 어려움, 이상치에 영향 많이 받음(평균->중앙값=>알고리즘 함수 PAM)

-U자형 군집이 존재할 경우 성능 떨어짐

 

23.군집분석의 타당성 지표 군집간 거리, 지름, 분산을 고려

(1) Duun Index : 군집 멀수록, 군집 내 분산은 작을수록 좋은 결과로 값이 커짐

(2)실루엣 계수

-거리계산을 통해 값을 구하며 데이터들이 잘 모여있는지, 군집끼리는 잘 구분되는지

-실루엣 계수가의 평균값이 1에 가까울수록 잘됨, 실루엣계수 > 0.5 => 타당한 것으로 판단

-클러스터링 알고리즘에 영향 안받음, 시각화 가능, 데이터 양 많으면 시간 오래걸림

 

23.혼합분포군집(mixture distribution clustering)

-모형 기반의 군집 방법으로서 데이터가 k개의 모수적 모형의 가중합으로 표현되는 모집단 모형으로부터 나왔다는 가정 하에 분석을 하는 방법

-EM 알고리즘

- k개의 각 모형은 군집을 의미하며 랜덤하게 초기화 후 어느 집단에 속할 확률 계산(E단계): 잠재변수 존재

-이 혼합모형의 모수와 가중치의 최대가능도(Maximum Likelihood) 추정에 사용되는 알고리즘이다(M단계)

-이상치 자료에 민감

-서로 다른 크기나 모양의 군집을 찾을 수 있다.

-군집의 크기나 작으면 추정의 정도가 떨어지거나 어려울 수 있음.

 

24. 밀도기반 군집분석

-어느 점을 기준으로 주어진 반경 내에 최소 개수만큼의 데이터들을 가질 수 있도록 함으로써 특정 밀도함수 혹은 밀도에 의해 군집을 형성해나가는 기법으로 DBSCAN, OPTICS, DENCLUE 등이 있음 임의적인(arbitrarity) 모양의 군집탐색에 효과적

-DBSCAN 알고리즘

2개의 파라미터 필요 Eps와 개체의 최소수 설정, 노이즈 자료에 대한 정보제공, 이상치에 민감x ,순서상관x

 

25. SOM (자기조직화지도)

-차원축소와 군집화 동시에 수행, 다수의 입력층과 다수의 출력층

-인공신경망과 유사하나 역전파 알고리즘(x)->단 하나의 전방패스(Feedforward flow) 비지도 학습이다.

-입력 변수의 위치관계를 그대로 보존

-패턴발견, 이미지 분석에서 뛰어난 성능

-오직 승자 뉴런만이 학습

-실시간 학습 처리 가능, 구조상 수행이 빠른 모델

-단지 수치형 데이터 변수에서만 사용가능

-범주형 자료는 더미변수(가변수)로 변환하여 사용

-입력층과 경쟁층 노드 간의 거리의 유클리드 거리 계산하여 가장 가까운 뉴런 : BMU(best matching unit)

 

 

26.연관분석

-지지도, 신뢰도, 향상도(b를 구매한 고객 대비 a구매 후 b를 구해하는 고객에 대한 확률) 알지? 독립일 때 향상도는 1

-향상도 곡선(성과에 대한 그래프), apirior 함수 : inspect()

 

'자격증 > ADsP' 카테고리의 다른 글

32회 ADsP 합격 +굿 노트로 최종공부한 파일  (0) 2023.01.15
ADsp 2과목  (0) 2023.01.13
Comments