AWS EMR

이 문서는 을 갖췄다는 가정하에 작성했다.맵리듀스(MapReduce)는 분산&병렬처리 알고리즘을 이용 클러스터링 환경에서 빅 데이터 세트를 처리하기 위한 프로그래밍 모델및 관련 구현체를 일컫는다. 맵리듀스 프로그래밍 관련 구현체중 가장 유명한 구현체가 하둡 맵리듀스다. 하둡 스트리밍은 Hadoop에서 배포하는 유틸리티다. 이 유틸리티를 이용하면, mappe...

Hive And Pig

DW(Data warehouse)는 정보에 입각한 의사결정을 내릴 수 있도록 도와주는 분석가능한 정보를 가지는 중앙 데이터 저장소다. 지금 AWS에서 DW 툴이라고 하면, 풀 매니지드 되는 Redshift를 의미한다. 하지만 하둡 에코시스템에서 Hive는 여전히 많이 사용하고 있으니 먼저 살펴보려 한다. Hive는 Hadoop기반의 DW 시스템이다. Hiv...

Hadoop 및 MapReduce

아파치 하둡(Hadoop)은 대량의 데이터를 용이하게 처리하기 위해서 분산 컴퓨터 네트워크 기술을 사용하는 오픈 소스 소프트웨어 유틸리티들의 모음이다. 수천개의 노드에서 실행 할 수 있으며, 테라바이트 혹은 페타바이트 단위의 데이터를 저장하고 처리 할 수 있다. 아파치 하둡의 핵심은 HDFS로 알려진 분산 파일 저장소와 분산 프로그래밍 모델인 MapRed...

빅 데이터 개요

빅데이터 쪽은 드문드문 했다. AWS를 기반으로 개발활동을 하고 있으니, AWS 환경에서 빅데이터를 제대로 시작해보기로 한다. 하여 문서들을 정주행하기로 했다. 이 문서는 스터디노트 정도로 보면 되겠다. 가장 기본이 되는 빅 데이터 개요 문서 부터 시작한다. 빅 데이터 개요는 4개의 모듈로 구성된다. 1. 빅 데이터 개요 2. 데이터베이스 아키텍처 3. H...