AWS EMR

이 문서는 을 갖췄다는 가정하에 작성했다.맵리듀스(MapReduce)는 분산&병렬처리 알고리즘을 이용 클러스터링 환경에서 빅 데이터 세트를 처리하기 위한 프로그래밍 모델및 관련 구현체를 일컫는다. 맵리듀스 프로그래밍 관련 구현체중 가장 유명한 구현체가 하둡 맵리듀스다. 하둡 스트리밍은 Hadoop에서 배포하는 유틸리티다. 이 유틸리티를 이용하면, mappe...

neo4j 소개

요즘 그래프데이터베이스를 지겨보고 있다. AWS 넵튠(Neptune)와 Neo4j를 주로 살펴보고 있는데, 오랜 역사와 전통을 자랑하는 Neo4j를 우선 살펴볼 생각이다.그래프 데이터베이스(GDB)는 노드(node)와 에지(edge) 형태로 표현 할 수 있는 데이터를 저장하기 위해 특화된 데이터베이스다. 이 시스템의 핵심 개념은 데이터 항목을 노드로 표현하...

Taming big data with apache spark hands-on : What's new in Spark 3

Spark의 최신 버전은 "Spark 3"다. Spark의 역사를 대략 정리했다.Spark는 2009년 UC Berkeley AMPLab에서 빅 데이터 분석을 위한 시스템 개발을 목표로 시작했다. 2014년 Spark 1.0 이 릴리즈 되고 같은해 탑-레벨 아파치프로젝트가 된다. 들을 둘러보자. 기술을 선택하는데 큰 도움이 될 것이다. 2018년 Spark...

Taming big data with apache spark hands-on : Getting Started

Apache Spark 개발 환경을 세팅한다. 나는 우분투 리눅스를 사용하고 있다. 모든 내용은 우분투 리눅스를 기준으로 한다. 우분투 리눅스 19.04를 사용하고 있다.# cat /etc/issueUbuntu 19.04 \n \l# uname -aLinux yundream 5.0.0-40-generic #44-Ubuntu SMP Wed Jan 15 02S...

GoLang과 DynamoDB

Go 언어를 이용해서 Dynamodb에 CRUD하는 방법을 살펴볼 것이다. 우분투 리눅스 19.04 Go version 1.12 AWS Cloud 서울 리전 데이터베이스 DynamoDB는 AWS의 관리형 NoSQL 데이터베이스다. 서버가 필요 없는 서버리스(ServerLess) 환경을 제공한다. 개발자는 가용성, 확장, 성능 등에 대한 고민 없이 개발 할 ...

DataWareHouse

Data warehouse(DW 혹은 DWH)는 enterprise data warehouse(EDW)라고 부르기도 한다. DW는 데에터 분석과 레포팅에 사용하는 시스템으로 Business intelligence(BI)핵심 구성요소다. DW는 하나 이상의 개별 데이터소스를 통합하는 중앙 저장소로 기능한다. 기업의 과거와 현재, 상품, 서비스, 임직원의 업무...

데이터베이스 아키텍처

"AWS Big Data Technology Fundamentals - 모듈 2마법의 은탄환은 없다. 빅 데이터가 모든 문제를 해결해주지 못한다. 현장에서는 (간단한 서비스라고 하더라도) 3개 이상의 데이터베이스 모델을 섞어서 사용한다. 빅 데이터를 제대로 활용하기 위해서는 다양한 데이터베이스들의 특징들을 알고 있어야 한다.RDBMS(Relational D...

Enterprise data warehousing on aws

의 요약문서다. 개인 학습을 목적으로 요약했다. 전 세계 기업의 데이터엔지니어, 분석가, 개발자들은 DW를 이용해서 데이터를 분석해서 의사결정을 위한 정보들을 만들고 있다. 기존의 DW는 성능개선과 비용 효율성을 위해서 클라우드로 마이그레이션하고 있다. 이 문서는 AWS에서 사용 할 수 있는 DW 서비스를 소개하며, 일반적인 설계 패턴을 제시함으로써 ...

Data mart

데이터 마트(Data mart)는 데이터 웨어하우스(Data warehouse)의 하위 시스템이다. 데이터웨어 하우스가 전체 조직을 대상으로 한다면, 데이터 마트는 특정 비지니스나 특정 팀을 대상으로 한다. 각 목적에 맞게 데이터베이스 시스템을 구성할 수 있는데, 이를 통해서 데이터의 사용과 조작과 개발을 팀 단위로 분리 할 수 있다. 목적에 맞게 데이터베...

OLAP - Online Analytical Processing

OLAP(Online analytical processing)은 의사결정 지원 시스템의 대표적인 예로, 사용자가 동일한 데이터를 여러 기준을 이용해서 다양한 방식으로 바라보면서 다차원 데이터 분석을 할 수 있도록 도와준다. OLAP는 광범위한 BI(business intelligence)의 한 부분으로 관계형 데이터베이스, 리포팅 시스템과 데이터 마이닝도...