데이터 전처리
- 데이터 분석의 필수 과정
- 결과의 오류 방지
- 신뢰도 향상 가능
- 분석 과정의 7~80%를 이 과정에 할애
1. 데이터 정제Data Cleansing
1.1. 결측값Missing Value
: 데이터 입력 X, 누락된 값.
분석에 영향 미치므로 반드시 처리 필요!
- 탐색
- 부호화(
NA
,NaN
등) - 처리
- 단순 대치법
- 완전 분석법
- 불완전 자료 모두 무시
효율성 상실, 통계적 타당성 문제
- 평균 대치법
- 평균, 중앙값, 최빈값 등으로 대치.
결측값 발생이 다른 변수와 유관한 경우 유용함.
- 단순 확률 대치법
- 평균 대치법에 적정 확률값 부여해 대치.
(평균 대치법의 표준오차 과소추정문제 보완 위함)
Hot-Deck(현재 진행), Cold-Deck(외부나 이전의 연구) 등.
- 다중 대치법
- 다중 대치법을 $m$번 수행하여 $m$개의 가상적 완전 자료 만들기.
추정량 표준오차의 과소추정, 계산의 난해성 문제
- 단순 대치법
1.2. 이상값Outlier
- 검출
- 처리
분석 변수 처리
- 변수 선택
- 차원 축소
- 파생 변수 생성
- 변수 변환
- 불균형 데이터 처리