IT용어위키



탐색적 데이터 분석

Exploratory Data Analysis; EDA
통계적 가설 검정 등의 기존 데이터 분석과 달리, 가설이나 뚜렷한 목적 없이 데이터에 숨겨진 의미, 인지하지 못했던 가치를 파악하기 위해 탐색적으로 데이터를 분석하는 과정
  • 벨연구소의 수학자인 존 튜키는 확증적 데이터 분석과는 대조적인 EDA를 개발

도구

  • 도표(plot)
  • 그래프(graph)
  • 요약통계(summary statistics)

접근법

아래 행위를 반복한다.
  • 1. 데이터에 대한 질문&문제 만들기
  • 2. 데이터를 시각화하고, 변환하고, 모델링하여 그 질문&문제에 대한 답을 찾아보기
  • 3. 찾는 과정에서 배운 것들을 토대로 다시 질문을 다듬고 또 다른 질문&문제 만들기

탐색

  • 모든 변수의 분포를 도표화
  • 시계열 데이터를 도표화
  • 산점도 행렬을 이용하여 변수들의 대응 관계를 파악
  • 모든 변수의 요약통계를 생성

발견

  • 데이터에 대한 인사이트
  • 데이터의 가치와 활용 목표에 대한 발견
  • 예상치 못했던 관계성
  • 미래 예측 등

참고 문헌


  출처: 공대위키(공대위키에서 최신 문서 보기)
  * 본 페이지는 공대위키에서 미러링된 페이지입니다. 일부 오류나 표현의 누락이 있을 수 있습니다. 원본 문서는 공대위키에서 확인하세요!