[빅데이터 파이프라인 마스터] 강의 출시

빅데이터 프로세싱의 4단계에 해당하는 [데이터 수집 ▶ 데이터 저장 ▶ 데이터 분석 ▶ 표현] 에 대한 내용을 이론 30% + 실습 70%으로 이루어진 코드랩 방식으로 보다 재밌고 체계적으로 학습합니다. Keywords: HDFS, Hadoop, Spark, ElasticSearch, Kibana, Logstash, NodeJs...

FULL TEXT SEARCH and INVERTED INDEX 파헤치기

앞 elasticsearch lecture에서 설명한 대로 full-text search는 로그 분석 및 다량 데이터 분석에서 매우 필요한 기술이다. 이를 학습하기 전에 먼저 과연 우리가 데이터 분석을 위해 다루게 될 데이터들은 어떤 종류로 나누어지는지 파악해보고, 그 후 full-text search에 대해서 설명하려 한다....

ELK STACK 실습 / Elasticsearch, Kibana

해당 Posting은 실습 페이지이며, 이론을 학습하지 않고 온 독자분들은 아래링크로 이동하여, `Elasticsearch` 및 `Kibana` 에 대한 정의 및 사례들을 학습하고 오길 권고합니다 https://www.joinc.co.kr/w/elk_stack_theory 자 이론은 이 정도 알았으면, 바로 실습을 들어가보자. 사실 Elasticsearch...

ELK STACK 이론 / Elasticsearch, Logstash, Kibana

여러분들은 Developer 생활을 하면서 `LOG ANALYSIS` 용어를 들어본적이 있는가? 만약 여러분들이 서버 프로그래밍, 데이터 분석을 관련 일을 하고 싶다면 또는 여러분들의 몸값을 ‘Dramatic Jump’ 하고 싶다면 ? 이 용어는 반드시 접할 단어이고 단언코 다양한 USECASE 들을 경험하면서 학습해나갈 영역이다. 가령, ‘User Act...

AWS EMR

이 문서는 을 갖췄다는 가정하에 작성했다.맵리듀스(MapReduce)는 분산&병렬처리 알고리즘을 이용 클러스터링 환경에서 빅 데이터 세트를 처리하기 위한 프로그래밍 모델및 관련 구현체를 일컫는다. 맵리듀스 프로그래밍 관련 구현체중 가장 유명한 구현체가 하둡 맵리듀스다. 하둡 스트리밍은 Hadoop에서 배포하는 유틸리티다. 이 유틸리티를 이용하면, mappe...

neo4j 소개

요즘 그래프데이터베이스를 지겨보고 있다. AWS 넵튠(Neptune)와 Neo4j를 주로 살펴보고 있는데, 오랜 역사와 전통을 자랑하는 Neo4j를 우선 살펴볼 생각이다.그래프 데이터베이스(GDB)는 노드(node)와 에지(edge) 형태로 표현 할 수 있는 데이터를 저장하기 위해 특화된 데이터베이스다. 이 시스템의 핵심 개념은 데이터 항목을 노드로 표현하...

Taming big data with apache spark hands-on : What's new in Spark 3

Spark의 최신 버전은 "Spark 3"다. Spark의 역사를 대략 정리했다.Spark는 2009년 UC Berkeley AMPLab에서 빅 데이터 분석을 위한 시스템 개발을 목표로 시작했다. 2014년 Spark 1.0 이 릴리즈 되고 같은해 탑-레벨 아파치프로젝트가 된다. 들을 둘러보자. 기술을 선택하는데 큰 도움이 될 것이다. 2018년 Spark...

Taming big data with apache spark hands-on : Getting Started

Apache Spark 개발 환경을 세팅한다. 나는 우분투 리눅스를 사용하고 있다. 모든 내용은 우분투 리눅스를 기준으로 한다. 우분투 리눅스 19.04를 사용하고 있다.# cat /etc/issueUbuntu 19.04 \n \l# uname -aLinux yundream 5.0.0-40-generic #44-Ubuntu SMP Wed Jan 15 02S...

GoLang과 DynamoDB

Go 언어를 이용해서 Dynamodb에 CRUD하는 방법을 살펴볼 것이다. 우분투 리눅스 19.04 Go version 1.12 AWS Cloud 서울 리전 데이터베이스 DynamoDB는 AWS의 관리형 NoSQL 데이터베이스다. 서버가 필요 없는 서버리스(ServerLess) 환경을 제공한다. 개발자는 가용성, 확장, 성능 등에 대한 고민 없이 개발 할 ...

DataWareHouse

Data warehouse(DW 혹은 DWH)는 enterprise data warehouse(EDW)라고 부르기도 한다. DW는 데에터 분석과 레포팅에 사용하는 시스템으로 Business intelligence(BI)핵심 구성요소다. DW는 하나 이상의 개별 데이터소스를 통합하는 중앙 저장소로 기능한다. 기업의 과거와 현재, 상품, 서비스, 임직원의 업무...