Data Preprocessing 데이터를 실제 업무에 활용하기에 앞서서 정제하는 행위 데이터 전처리 부담 데이터 분석가는 업무 시간 중 80%정도를 데이터 수집 및 전처리 과정에 사용[1] 유형 데이터 품질 향상 이상치 처리 결측치 처리 노이즈 제거 오타 처리 개행문자 등 특수문자 처리 데이터 통일 메타 데이터 조정: 칼럼명 통일 데이터 형태 조정: Data Type, Datetime Type, 원핫 인코딩 연계 정보 조정: 불필요 칼럼 삭제, 칼럼 추가 등 개인정보 보호 노이즈 추가: 차분 프라이버시 식별자 제거: 개인정보 비식별화 암호화: 동형암호 민감속성 제거 참고 문헌 ↑ Forbes에서 인용한 CrowdFlower의 설문 결과