메뉴

문서정보

2020년 3월 10일 부터 Apache Spark를 공부한다. Udemy의 [Taming Big Data with Apache Spark and Python - Hands On!]로 시작한다.

Spark

Apache Spark는 오픈 소스 기반의 범용 분산 클러스터링 컴퓨팅 프레임워크다. Spark는 병렬처리 기능 및 내결함성과 전체 클러스터에서 작동하는 애플리케이션을 프로그래밍하기 위한 인터페이스를 제공한다. 버클리 대학의 AMPLab에서 처음 개발 된 Spark는 이 후 Apache Software Foundation에 기증됐다.

RDD

Spark의 핵심은 읽기 전용의 데이터 항목 세트인 RDD(Resilient Distributed Dataset) 이다. RDD는 불변의 분산 개체 컬랙션으로 RDD의 각 데이터 세트는 논리적인 파티션으로 나누어지며 클러스터의 여러 노드에서 계산될 수 있다. RDD는 사용자 정의 클래스를 포함하며, Java, Python, Scala객체를 포함 할 수 있다.

Spark는 분산 시스템으로 데이터를 처리하기 위해서 HDFS, Cassandra, HBase, S3 등 분산 스토리지를 필요하다. 물론 필요하다면 로컬 파일 시스템을 사용 할 수 있다. Spark는 일반 텍스트 파일, SequenceFil와 Hadoop InputFormat를 지원한다.

... 계속

제목 저자 변경일