빅 데이터 개요

빅데이터 쪽은 드문드문 했다. AWS를 기반으로 개발활동을 하고 있으니, AWS 환경에서 빅데이터를 제대로 시작해보기로 한다. 하여 문서들을 정주행하기로 했다. 이 문서는 스터디노트 정도로 보면 되겠다. 가장 기본이 되는 빅 데이터 개요 문서 부터 시작한다. 빅 데이터 개요는 4개의 모듈로 구성된다. 1. 빅 데이터 개요 2. 데이터베이스 아키텍처 3. H...

Aurora에 Billion 데이터 밀어 넣기

주기적으로 수 시간안에 빌리언 데이터를 밀어 넣어야 하는 요구가 생겼다. 애초에 이런 대규모의 데이터를 주기적으로 밀어 넣어야 하는 상황이 있을까 하는 물음은 있을 수 있겠는데, 데이터가 커지는 요즘 이런 요구는 드물지 않게 생길 것 같다. 수집한 데이터를 분석 한 다음, 서비스 데이터베이스로 밀어 넣어야 하기 때문이다.데이터는 {Key,Value} 타입이...

Apache Hive

아파치 하이브는 하둡위에 구축된 데이터 웨어하우스(Data warehouse)소프트웨어 프로젝트다. Hive는 하둡과 통합되며, SQL과 유사한 인터페이스를 이용해서 데이터를 질의 할 수 있다. 분산 시스템에서 SQL 응용 프로그램을 실해앟기 위해서는 MR을 이용해서 직접 SQL 쿼리를 구현해야 한다. 하이브를 이용하면 저수준의 쿼리를 구현할 필요 없이 S...

Spark

Apache Spark는 빅데이터 처리에 사용되는 오픈 소스 분산 처리 시스템이다. 메모리 기반으로 바르게 작동하며, 배치처리, 스트리밍 분석, 머신러닝등 다양한 영역에서 사용한다.Spark는 RDD(Resilient distributed dataset)이라고 부르는 자료구조로 여러 노드에 분산 할 수 있는 분산 collection이다. 대량의 데이터를 처...

HBase 소개

HBase(Hadoop database)는 하둡 기반의 분산 데이터베이스로 빅데이터를 저장하기 위해서 사용한다. NoSQL로 분류되는데, 많은 NoSQL 솔류션들이 그렇듯이 스키마 변경없이 자유롭게 데이터를 저장 할 수 있다. HDFS위에서 작동하기 때문에, HDFS의 데이터의 가용성과 확장성을 그대로 이용 할 수 있다. 데이터베이스 CAP 이론에서 HBA...

HBase 애플리케이션 개발

HBase 애플리케이션개발은 보통 Java를 이용하겠지만, go 언어를 이용해서 개발해 보려고 한다. 굳이 go를 이용하는 이유는 아직 java에 익숙치 않아서이다.(결국 java를 해야 할 것 같다.)virtualbox를 이용해서 하둡클러스터를 만들고 그 위에 hbase를 구성했다. 문서그대로 구성했으니 참고 한다.개발에 사용할 데이터베이스다.의 데이터베...

Hbase 설치

Hbase는 HDFS기반으로 작동한다. 따라서 반드시 Hadoop 환경을 구성해야 한다. 문서를 따라서 설치하자. 현재 Hadoop 환경은 다음과 같다. VirtualBox로 구성했다. 문서는 Hadoop 구성을 끝냈다고 가정하고 진행한다. hadoop01, hadoop02, hadoop03 3개의 노드로 구성한다. hadoop01은 Masternode, ...

HBase

HBase를 학습하기 위한 위키페이지다. 학습하는 이유는 다음과 같다. 1. IoT 플랫폼의 데이터 저장 과 분석을 위한 백앤드로 Kafka와 HBase를 고민하고 있다. 1. 아마 가장 일반적인 구성일 텐데, 실제 이들 환경을 만들어 본다. 1. 실제 IoT 플랫폼의 데이터 저장 / 분석 시스템을 구성한다. ...

Solr

Solr는 루신(lucene)기반의 검색 소프트웨어다. 루신이 검색엔진이라면, Solr는 색인과 검색, 분산 검색, 리플리케이션, 로드밸런싱 등 검색서비스를 위한 다양한 기능을 포함한 검색 소프트웨어라고 할 수 있다. 이 바닥에서는 ElasticSearch을 많이 사용하고 있는 것 같다. 스키마를 정의 할 필요가 없어서 로그와 같은 비정형 데이터를 색인하기...

MapReduce

MapReduce...