Recommanded Free YOUTUBE Lecture: <% selectedImage[1] %>
 Hadoop

Hadoop쪽은 관심 밖이였다. 딱히 사용해야 할 일이 없어서였다. 요즘 데이터 수집/처리 쪽 업무를 하게 되면서, 자연스럽게 하둡을 봐야하게 생겼다. 실제 써먹는 걸 목표로 실용적 관점에서 접근하려 한다.

Hadoop

 Hadoop ecosystem

가장 유명한 아파치(Apache) 프로젝트 중 하나일 것이다. 안정적이고 확장 가능한 분산 컴퓨팅 구축을 위한 오픈 소스 소프트웨어다. 주요 모듈은 아래와 같다.
  • Hadoop Common : 다른 하둡모듈들을 지원하기 위한 기본 유틸리티들
  • Hadoop Distributed File System(HDFS) : 높은 대역폭을 제공하는 분산파일 시스템
  • Hadoop YARN : Job을 스케쥴링하는 프레임워크다. Job 스케쥴링을 위한 리소스 관리 기능도 포함하고 있다.
  • Hadoop MapReduce : 빅 데이터의 병렬 처리를 위한 YARN 기반 시스템. 지금은 YARN에 통합됐다.
기타 하둡과 관련된 프로젝트들이다.
  • Ambari : 하둡기반의 다양한 애플리케이션을 관리 & 모니터링 하기 위한 모니터링 툴
  • Avro : Thrift와 Protocol Buffer 같은 데이터 직렬화 시스템.
  • Cassandra : 멀티 마스터 데이터베이스
  • HBase : 분산 데이터베이스 시스템
  • Hive : Apache Hive
  • Mahout
  • Pig
  • Spark : 하둡 데이터 처리를 위한 연산 엔진, ETL, 머신러닝, 스트림 프로세싱, 그래프 연산등의 연산 기능을 가지고 있다.
  • Tez
  • Zookeeper : 분산 코디네이터