Hadoop

Recommanded Free YOUTUBE Lecture: <% selectedImage[1] %>

yundream
2017-06-20
2017-03-09
155250

Hadoop

Hadoop쪽은 관심 밖이였다. 딱히 사용해야 할 일이 없어서였다. 요즘 데이터 수집/처리 쪽 업무를 하게 되면서, 자연스럽게 하둡을 봐야하게 생겼다. 실제 써먹는 걸 목표로 실용적 관점에서 접근하려 한다.

Hadoop

Hadoop ecosystem

가장 유명한 아파치(Apache) 프로젝트 중 하나일 것이다. 안정적이고 확장 가능한 분산 컴퓨팅 구축을 위한 오픈 소스 소프트웨어다. 주요 모듈은 아래와 같다.

Hadoop Common : 다른 하둡모듈들을 지원하기 위한 기본 유틸리티들
Hadoop Distributed File System(HDFS) : 높은 대역폭을 제공하는 분산파일 시스템
Hadoop YARN : Job을 스케쥴링하는 프레임워크다. Job 스케쥴링을 위한 리소스 관리 기능도 포함하고 있다.
Hadoop MapReduce : 빅 데이터의 병렬 처리를 위한 YARN 기반 시스템. 지금은 YARN에 통합됐다.

기타 하둡과 관련된 프로젝트들이다.

Ambari : 하둡기반의 다양한 애플리케이션을 관리 & 모니터링 하기 위한 모니터링 툴
Avro : Thrift와 Protocol Buffer 같은 데이터 직렬화 시스템.
Cassandra : 멀티 마스터 데이터베이스
HBase : 분산 데이터베이스 시스템
Hive : Apache Hive
Mahout
Pig
Spark : 하둡 데이터 처리를 위한 연산 엔진, ETL, 머신러닝, 스트림 프로세싱, 그래프 연산등의 연산 기능을 가지고 있다.
Tez
Zookeeper : 분산 코디네이터

Copyrights © - Joinc, All Rights Reserved.
Inherited From - Yundream Rebranded By - Joonphil