[빅데이터 파이프라인 마스터] 인프런 강의 출시 및 프로모션

저희 Co-founder J.Phil이 국내에서 저명한 E-Learning Contents 플랫폼 인프런 에 빅데이터 파이프라인 강의를 출시했습니다. 5년이상 강의했던 경험을 바탕으로 양질의 컨텐츠를 제작하였으니, Data Analysis 및 Pipeline 관심 있는분들은 많은 관심 및 성원 부탁드립니다....

Taming big data with apache spark hands-on : What's new in Spark 3

Spark의 최신 버전은 "Spark 3"다. Spark의 역사를 대략 정리했다.Spark는 2009년 UC Berkeley AMPLab에서 빅 데이터 분석을 위한 시스템 개발을 목표로 시작했다. 2014년 Spark 1.0 이 릴리즈 되고 같은해 탑-레벨 아파치프로젝트가 된다. 들을 둘러보자. 기술을 선택하는데 큰 도움이 될 것이다. 2018년 Spark...

Taming big data with apache spark hands-on : Getting Started

Apache Spark 개발 환경을 세팅한다. 나는 우분투 리눅스를 사용하고 있다. 모든 내용은 우분투 리눅스를 기준으로 한다. 우분투 리눅스 19.04를 사용하고 있다.# cat /etc/issueUbuntu 19.04 \n \l# uname -aLinux yundream 5.0.0-40-generic #44-Ubuntu SMP Wed Jan 15 02S...

Spark

Apache Spark는 빅데이터 처리에 사용되는 오픈 소스 분산 처리 시스템이다. 메모리 기반으로 바르게 작동하며, 배치처리, 스트리밍 분석, 머신러닝등 다양한 영역에서 사용한다.Spark는 RDD(Resilient distributed dataset)이라고 부르는 자료구조로 여러 노드에 분산 할 수 있는 분산 collection이다. 대량의 데이터를 처...