Home 과목 2 - 빅데이터 탐색 문제 피드백 정리
Post
Cancel

과목 2 - 빅데이터 탐색 문제 피드백 정리

1. 데이터 정제Data Cleansing 관한 설명

 ①번 틀린 이유

노이즈와 이상값은 정형 데이터보다는
반정형, 비정형 데이터에서 더 많이 발생함.

 ②번 틀린 이유

데이터 정제 과정은
데이터 분석 과정에서 반드시 수행!!

 ④번 틀린 이유

모든 데이터를 대상으로 정제 활동 해야함!



2. 이상값Outlier 관한 설명

 ①번 틀린 이유

이상값의 발생 원인 중 하나에는
데이터 분석 및 처리 과정에서 발생하는 것이다.



3. 대푯값 관한 설명, 특징

 ①번 틀린 이유

중앙값은 이상값에 민감하지 않음!
(이상값 영향 적게 받음.)

 관련 개념 - 이상값 영향 기준

  영향 많이 받는 것

  • 평균Mean, 분산, 표준편차, 범위
  • 앙상블 中 부스팅Boosting
  • (비지도 & 군집 & 비계층적) k-Means

  영향 적게 받는 것

  • 중앙값Median
  • (지도 & 분류/회귀) kNN
  • (비지도 & 군집 & 비계층적) DBSCAN



5. 이상치 정의

통계적 자료 분석의 결과 왜곡시키거나
자료 분석의 적절성 해치며
분포의 집중경향치를 왜곡시키는 변숫값.



6. 이상치 판별 방법

 ESD

Extreme Studentized Deviation

\(\mu - 3\delta <\) 정상데이터 \(< \mu + 3\delta\)
즉, 평균에서 3*(표준편차)를 벗어나면
  –> 이상치로 판단

 사분위수

\(\text{IQR} = Q_3 - Q_1\)
( 즉, \(\text{IQR}\)은 데이터의 가운데 50% 의미 )
 ==> \(Q_1 - 1.5 \times \text{IQR} <\) 정상데이터 \(< Q_3 + 1.5 \times \text{IQR}\)

 데이터 시각화

  • 히스토그램Histogram
  • 밀도차트Density Chart
  • 상자그림BoxPlot   : 수염 밖으로 이상값이 표시됨.
  • 잔차도Residuals



11. 변수 선택 기법

필터Filter 기법

  • 래퍼 기법 사용 전 전처리로 사용
  • 통계적 측정 방법 사용
  • 정보 소득, $\chi^2$ 검정, 피셔 스코어, 상관계수

래퍼Wrapper기법

  • 변수의 일부로 모델링 한 뒤,
    그 결과 확인 작업 반복하여
    가장 성능 좋은 변수 조합 찾음.

  • 전진 선택법 / 후진 제거법 / 단계적 선택법

  • 필터 방법보다 예측 정확도 높음.

임베디드Embedded기법

  • 모델 자체에 포함된 변수 선택 기법
  • 모델의 학습, 생성 과정에서 최적 변수 선택
  • 릿지Ridge, 라쏘Lasso, 엘라스틱넷ElasticNet,
    의사결정나무



12. 독립변수 선택 기법

(Wrapper 기법 中)

기준
AIC, BIC의 기준으로 가장 적합한 회귀 모형 선택
 ==> $R^2$와 비슷한 역할 but $R^2$은 클수록 좋으나
  AIC, BIC는 작은 값이 좋음.

  • 전진선택법Forward Selection 절편만 있는 모델에서 출발.
    기준 통계치 가장 많이 개선하는 변수를 차례로 추가.

  • 후진제거법Backward Elimination 모든 독립변수 포함한 모형에서 출발.
    제곱합 기준으로 가장 적은 영향 주는 변수를 하나씩 제거.

  • 단계별 선택법Stepwise Method 모든 독립변수 포함한 모델에서 출발.
    기준 통계치에 가장 도움 안 되는 변수 삭제
      또는
    모델에서 빠져있는 변수 중 기준 통계치 가장 개선하는 변수 추가



13. 차원의 저주

  • 차원 증가하면서
    개별 차원 내의 학습 데이터 수가 차원 수보다 적어지면서
    성능이 저하되는 현상.

  • 데이터 차원 증가할수록
    데이터 표현가능 공간은 기하급수적 증가
    But, 데이터 수는 변하지 않기 때문에 발생.

  • 모델링 과정에서
    저장공간과 처리시간 불필요하게 증가
     ==> 성능 저하

  • 표본 수 적을 때 더욱 심화됨



14. 차원 축소의 목적과 특징

  변수의 정보를 최대한 유지하면서
변수 개수를 줄이는 통계 기법.

  차원의 축소 and 다중 공선성과 관련.

목적
데이터 분석의 효율성 측면에서
복잡도 축소, 과적합 방지, 해석력 확보

기법

  • 주성분 분석
  • 요인 분석
  • 특이값 분해
  • 다차원 척도법



15. 다중공선성

  • 모형의 일부가
    다른 설명변수와 높은 상관관계 있을 때 발생

  • 다중공선성 클수록
    회귀계수의 분산 증가
     ==> 모델 불안정, 해석 어렵게 함.

  • VIF 값이 10 넘으면
     ==> 다중공선성 존재로 간주.

대책

  • 높은 상관관계 있는 설명변수를 모형에서 제거
  • 다양한 변수 선택, 차원 축소 방법
  • 설명변수 제거 시 $R^2$가 감소

방법

  • 변수축소
     : 주성분 분석, 요인분석, 다차원 척도법 등의 변수축소
  • 변수제거
     : 상관관계 분석 후
       높은 상관계수 갖는 독립변수 중 일부를 제거
  • 릿지Ridge, 라쏘Lasso, 엘라스틱넷ElasticNet 회귀분석
    (과대적합 해결)

  • Mean Centering
     : 모든 변수를 각 변수의 평균값으로 뺀 후 회귀분석.



16. 주성분 분석

차원 축소 기법 중 하나

  • 여러 차원의 변수를 대표하는
    새로운 차원의 주성분을 생성하여
    전체 변동의 대부분을 설명하는 게 목적.

  • 주성분은 변수들의 선형결합.

  • 변수들의 공분산 행렬 or 상관행렬 사용
    (이때 행렬은 정방행렬만!)
    • 공분산 행렬
      : 측정단위 그대로 반영함
       변수들 측정 단위에 민감함.
       => 단위가 같은 수준일 때 사용
      $-\infty$부터 $\infty$사이의 값.
    • 상관 행렬
      : 모든 변수의 측정단위를 표준화함.
       변수 단위가 서로 많이 다를 때.
      $-1$부터 $1$ 사이의 값.
  • 주성분 결정 기준
    • 분산의 비율
      : 누적분산 비율이 70~90% 사이가 되는
       주성분 개수 선택.
    • 고윳값Eigenvalue
      : 분산의 크기 나타냄.
       고윳값이 1보다 큰 주성분만 사용.
    • Scree Plot
      : 고윳값을 내림차순으로 보여줌.



18. 요인 분석

변수의 구성

  • 공통요인
    : 변수와 다른 변수가 공유하고 있는 것.
  • 고유요인
    : 그 변수만이 가지고 있는 것.

가정

  데이터 내부에 관찰할 수 없는
잠재적 요인(변수) 가정

  • 모형 세운 뒤,
    관찰 가능 데이터 이용하여
    해당 잠재 요인 도출, 데이터 안의 구조 해석

  • 독립변수, 종속변수 구분 X
    주로 기술통계 방법 사용

  • 유사한 변수끼리 묶음.



19. 다차원 척도법

  • 객체 사이의 근접성 시각화 기법.

  • 개체들 사이의 유사성, 비유사성을
    2차원 or 3차원 공간산에 점으로 표현
    ==> 개체 사이 군집 시각적 표현.

  • 개체들의 거리
    : 유클리드 거리 & 유사도

  • 적합 정도를
    스트레스 값Stress Value으로 나타냄.
    ==> 관측 대상의 상대적 거리의 정확도 높임.
      $0$에 가까울수록 적합도 좋음.



21. 파생 변수

  • 상관관계 있는 변수들끼리 결합하여
    분산을 극대화하는 변수로 만들어
    변수 축약하여 희생되는 정보 최소화 함.

  • 생성 방법

    • 단위 변환
    • 요약 통계량 변환
    • 변수 분해
    • 변수 결합



22 ~ 27. 변수 변환

스케일링

  - Min-Max Normalization

  데이터를 특정 구간($0$ ~ $1$ 범위)으로 바꿈.

$X’ = \dfrac{X - X_{\text{min}}}{X_{\text{max}} - X_{\text{min}}}$

  - Z-Score(표준화)

  데이터를 평균 $0$, 표준편차 $1$의
표준정규분포로 변환.
$Z = \dfrac{X - \mu}{\sigma}$

  - Robust Scaler

  중앙값과 IQR 사용.
  이상값의 영향이 최소화 됨.

  - Max Absolute Scaler

  최대 절댓값이 $1$, $0$은 $0$이 되도록 스케일링

단순 함수 변환

  한쪽으로 치우쳐진 분포를
분석 모형에 적합하게 변형
(즉, 비선형 –> 선형)

  • 오른쪽 꼬리 길 때
    => 로그, 제곱근, 역수

  • 왼쪽 꼬리 길 때
    => 제곱, 지수 변환

Box Cox 변환

  • 상대적 특성 반영된 데이터로 변환.
    (데이터가 가진 스케일이 크게 차이 날 때 사용)

  • 정규성 만족 X인 데이터에 대해,
    데이터를 정규분포 가깝게 만들거나
    데이터 분산을 안정화 하는 것.

  • 데이터 전처리 기법임.
    (정규성 가정하는 분석법 사용 전 활용)



28 ~ 30. 불균형 데이터 처리

불균형 데이터

  • 분포가 더 높은 클래스 예측하려 함
    ==> 정확도는 높아짐
       But, 분포 낮은 클래스의 재현율(Recall) 낮아짐.

  • 불균형 상태 그대로 예측하면
    과적합 문제 발생 가능
    ==> 테스트 데이터에선 예측 성능 낮게 나올 가능성

과대적합

  주어진 표본의 설명변수와 종속변수의 관계를
필요이상으로 너무 자세하고 복잡하게 분석함

해결방법

  • 변수(Feature) 개수 줄이기
  • 규제Regularization
  • 드랍아웃Dropout

불균형 데이터 처리 방법

  • 전처리 단계
    • 언더 샘플링
      : 다수 클래스의 데이터를 샘플링해 사용
       데이터 손실 매우 큼.
      중요한 정상적 데이터 읽을 가능성.
    • 오버 샘플링
      : 소수 클래스의 데이터 샘플링해 사용
      정보 손실 없음.
      새로운 테스터 데이터 추가되면 모델 결과 나빠짐.
      과대적합 가능성.
  • 학습 단계
    • 앙상블
    • Weight Balancing
  • 평가 단계
    • 임계값 이동Threshold-moving



31 ~ 32. 탐색적 데이터 분석

  • 데이터 통계량과 분포 등을 통해
    데이터 형태 확인하고,
    데이터 이해하며 의미 있는 관계 찾아내는 과정.

  • 분석 이전에
    그래프나 통계적 방법으로
    자료를 직관적으로 바라보는 과정.

  • 수집한 데이터를
    다양한 관점에서 관찰, 이해하는 과정.

4가지 특징

  • 저항성
  • 잔차 해석
  • 자료 재표현
  • 현시성



33 ~ 35. 상관 관계 분석

  • 두 개 이상 변수 사이에 존재하는
    상호 연관성 여부 및 강도 측정

  • 선형적으로 관련된 정도

  • 상관관계 있다고 해서
    인과관계 있는 건 아님.

종류

  • 변수 개수
    • 단순 상관 분석
    • 다중/다변량 상관 분석
  • 변수 속성
    • 범주형->명목
      : 데이터 순서 의미 X.
      변수 연산 불가능.
      $\chi^2$ 검정(교차분석)
    • 범주형->순서
      : 데이터 순서에 의미 O.
      변수 연산 불가능.
      스피어만 순위 상관계수
    • 수치
      : 변수 연산 가능
      피어슨 상관계수

상관계수

  • 피어슨 상관계수
    • $x$, $y$의 공분산을
      $x$, $y$의 표준편차의 곱으로 나눈 값
      즉, $corr(x, y) = \dfrac{cov(x, y)}{\sigma_x \sigma_y}$
    • 대상자료
      : 등간척도, 비율척도
       두 변수 사이의 선형적 크기만 측정가능
  • 스피어만 상관계수
    • 두 데이터의 실제 값 대신에
      두 값의 순위에 기반함.
    • 완전 일치 => $1$ / 완전 반대 => $-1$
    • 대상자료
      : 서열척도
       두 변수 사이의 비선형적 관계 나타내기 가능.
  • 공분산Covariance
    • 2개 확률변수의 선형 관계 나타내는 값
    • $cov(x, y) = \dfrac{\sum^n_{i=1} (x-\bar{x})(y-\bar{y})}{n-1}$
    • $0$인 경우, 선형 관계 없음 나타냄.
    • 측정 단위에 대한 표준화 안 돼있음.
          ==> 선형관계 강도 나타내지 못함.
    • $x$, $y$가 독립 $\longrightarrow$ 공분산 $cov(x, y) = 0$
      But, 그 반대는 성립 X.



36 ~ 48. 시각적 데이터 탐색

종류

  • 범주형
    : Bar 차트, Pie 차트
  • 수치형
    : 히스토그램, Boxplot
  • 범주형-범주형
    : Bar 차트, Heatmap
  • 범주형-수치형
    : Boxplot
     (범주를 그룹으로 사용)
  • 수치형-수치형
    : Scatter plot, Scatter matrix plot

시각화 과정

  1. 정보 구조화
    • 유사 데이터 묶거나
      재배열, 정리 및 변환
      ==> 데이터 패턴 찾거나 추출
    • 수집 및 탐색 -> 분류 -> 배열 -> 재배치
  2. 정보 시각화
    • 시각화 도구 사용해
      그래프 만들어 효과적 정보 표현
    • 시간, 관계, 비교, 공간, 분포
  3. 정보 시각표현
    • 시각화 완성단계,
      그래픽 요소 활용해 완성
    • 인포그래픽
      : 복잡한 대규모 빅데이터 분석결과를
      명료하고 이해 쉽게 표현

시각화 분류

  • 시간 시각화
    : 시간 흐름 따른 변화 표현
    • 선/막대/계단식 그래프
    • 영역 차트
    • 산점도
  • 공간 시각화
    : 지도 활용해 데이터 표현
    • 코로프레스 맵
    • 카토그램
    • 버블 플롯 맵
    • 등치선도
    • 등치지역도
  • 관계 시각화
    : 다변량 데이터에 대해
    변수 간의 연관성 및 패턴을
    색상, 농도 등 사용해 표현, 분석
    • 산점도
    • 산점도 행렬
    • 버블차트
    • 히트맵
  • 비교 시각화
    : 다변량 데이터 대해
    유사 및 차이에 대하여
    점, 선, 막대, 색 등을 사용해 표현

  • 구성 시각화
    : 범주형 데이터의 구성을
    크기로 표현
    • 파이 차트
    • 도넛 차트
    • 트리 맵 차트
  • 분포 시각화
    : 연속형 데이터 분포를 시각적 표현
    • 1개 변수
      : 히스토그램, 박스플롯
    • 2개 변수
      : 산점도



49. 평균, 중앙값, 최빈값

왜도Skewed

  • 양수일 때
    오른쪽으로 긴 꼬리
    ==> $\text{Mode} < \text{Median} < \text{Mean} $

  • 음수일 때
    왼쪽으로 긴 꼬리
    ==> $\text{Mean} < \text{Median} < \text{Mode} $



50. 중앙값

선수의 연봉이 매우 높은 상위권에 분포
==> 중앙값이 적절.



51. 기술 통계

  • 중심 경향 통계량
    • 평균
    • 중위수
    • 최빈값
  • 산포도 통계량
    • 범위
    • 분산
    • 표준편차
    • 평균의 표준오차
  • 분포 통계량
    • 첨도
    • 왜도



53. 평균과 중앙값 - 이상값 / 변동계수

  • 평균
    : (전체 합) / (개수) 이므로
    ==> 이상값에 민감

  • 중앙값
    : 가운데 위치하는 값
    ==> 이상값에 민감 X

  • 변동계수
    : 표준편차를 산술평균을 기준으로 표준화시킨 것
    ==> $\text{\bf CV} = \dfrac{s}{\bar{x}} $



56. (확률적)표본추출

  • 단순 무작위Simple random 추출
    • 모집단의 각 개체가 표본으로 선택될 확률이
      동일하게 추출되는 것
    • 개별 개체 선택 확률
      ==> $\dfrac{n}{N}$
      ($N$: 모집단 개체 수, $n$: 표본 수)
  • 계통Systematic 추출
    • 모집단 개체에 일련번호 부여 후,
      첫 번째 표본을 임의 선택 후
      일정한 간격으로 다음 표본 선택
  • 층화Stratified 추출
    • 이질적 원소들로 구성된 모집단에서
      각 계층 고루 대표되도록 표본 추출함.
    • 모집단을 서로 겹치치 않는 층들로 나누고,
      각 층에서 단순확률표본 추출.
      (집단 간 이질적, 집단 내 동질적)
    • 층: 성별, 나이대, 지역 등 차이 존재하는 그룹
  • 군집Cluster 추출
    • 집단 내 서로 이질적, 집단 간 서로 동질적
    • 집단 중 몇 개 선택 후,
      선택 집단 내에서 필요한 만큼을 임의 선택



59. 표본오차

  • 표본(추출) 오차
    • 모집단 대표 못하는 표본 추출하여
      발생하는 오차
    • 전수조사가 아니라
      표본 추출하므로 발생하는 오차.
    • 표본오차를 표본 크기 커지면 작아짐!!
      ==> 전수조사에선 $0$임.
  • 비표본 추출 오차
    • 표본오차 제외한,
      집계, 조사, 분석 과정에서 발생가능한 모든 오차.
    • 표본 크기에 비례하여 커짐.
  • 표본 편의bias
    • 표본추출 과정에서
      발생하는 편의(bias)
      (편의: 추정값의 기댓값과, 모수의 차이)
    • 확률화에 의해 최소화 or 제거 가능



60 ~ 61. 포아송 분포, 기댓값/분산 성질

기댓값은 $E(X) = \lambda$이고,
분산은 $V(X) = \lambda$이다.
즉,
$E(\dfrac{3X+2Y}{6})$
= $E(\dfrac{1}{2}X + \dfrac{1}{3}Y)$
= $\dfrac{1}{2}E(X) + \dfrac{1}{3}E(Y)$ 이고,

$\text{Var}(\dfrac{3X+2Y}{6})$
= $\text{Var}(\dfrac{1}{2}X + \dfrac{1}{3}Y)$
= $\dfrac{1}{2}\text{Var}(X) + \dfrac{1}{3}\text{Var}(Y)$ 이다.



63. 베르누이 분포

특정 실험에서 매 시행마다
가능한 결과가 오직 두 가지마다 일어날 때,
이런 실험을 1회 시행하여 일어난~ 분포

Contents