IT용어위키



스파크

Spark
인-메모리 기반의 분산 데이터 처리 시스템
  • UC 버클리의 AMP 랩에서 개발하였으며, 현재 아파치 재단에서 관리
  • 인-메모리 방식의 분산 처리 시스템

등장 배경

  • 기존 디스크 입출력에 대한 지연 시간 개선
  • 반복적인 작업이나 실시간 처리를 위해 빠른 처리 필요

구조 및 구성 요소

스파크 프레임워크 구조.png

  • SQL: 정형화된 SQL 지원
  • Streaming: 데이터 스트림을 세그먼트로 나눈 후 각각을 스파크 엔진으로 처리
  • MLlib: 회귀, SVM, 의사 결정 나무, 랜덤 포레스트머신러닝 라이브러리 제공
  • GraphX: 페이지 랭크, 레이블 전파, 삼각 계수 등 그래프 알고리즘 지원
  • Core: 분산 처리, 스케줄링, API 인터페이스 지원
  • 작업 처리 레이어: 스파크만으로 처리할 수도 있고, 하둡 Yarn, Mesos 등과 연계 가능

RDD

Resilient Distribute Dataset
  • 데이터 내장애성 보유 구조
  • 데이터 집합의 추상적객체 개념


참조 문헌


  출처: 공대위키(공대위키에서 최신 문서 보기)
  * 본 페이지는 공대위키에서 미러링된 페이지입니다. 일부 오류나 표현의 누락이 있을 수 있습니다. 원본 문서는 공대위키에서 확인하세요!