Data mart

데이터 마트(Data mart)는 데이터 웨어하우스(Data warehouse)의 하위 시스템이다. 데이터웨어 하우스가 전체 조직을 대상으로 한다면, 데이터 마트는 특정 비지니스나 특정 팀을 대상으로 한다. 각 목적에 맞게 데이터베이스 시스템을 구성할 수 있는데, 이를 통해서 데이터의 사용과 조작과 개발을 팀 단위로 분리 할 수 있다. 목적에 맞게 데이터베...

OLAP - Online Analytical Processing

OLAP(Online analytical processing)은 의사결정 지원 시스템의 대표적인 예로, 사용자가 동일한 데이터를 여러 기준을 이용해서 다양한 방식으로 바라보면서 다차원 데이터 분석을 할 수 있도록 도와준다. OLAP는 광범위한 BI(business intelligence)의 한 부분으로 관계형 데이터베이스, 리포팅 시스템과 데이터 마이닝도...

OLTP - Online Transaction Processing

OLTP(Online Transaction Processing)는 트랜잭션 지향의 애플리케이션을 손쉽게 관리할 수 있도록 도와주는 정보시스템의 한 계열로 트랜잭션을 처리하기 위해서 존재한다. 트랜잭션(Transaction)은 두 개의 다른 의미를 가진다. 1. 컴퓨터 또는 데이터베이스 영역에서 상태의 원자적 변화 1. 비지니스 혹은 금융영역에서의 경제교환 ...

Anatomy of an array

이 문서를 읽기 위해서는 NumPy에 대한 기본적인 경험이 있어야 한다. 그래서 기본적 Numpy 배열의 기본구조 특히 메모리 레이아웃, 뷰, 복사(copy), 데이터타입등을 설명하려 한다. dtype이 np.float32인 배열의 모든 값을 지우려는 간단한 예제를 생각해보자. 속도를 극대화하기 위해서는 어덯게 해야 할 까. 아래의 구문은 (적어도 Num...

From Python to Numpy - Introduction

예제코드들은 에서 다운로드 할 수 있다. 테스트에 사용한 python 버전은 아래와 같다. (my_env) yundream@yundreamPython 3.6.7 (default, Oct 22 2018, 11 on linuxType "help", "copyright", "credits" or "license" for more information.NumPy는...

From Python to Numpy

...

AWS BigData

학습노트다. AWS를 사용하니, AWS 기반의 빅데이터 서비스들을 배워서 사용할 생각이다. 1. 1. 1. ...

Hadoop 및 MapReduce

아파치 하둡(Hadoop)은 대량의 데이터를 용이하게 처리하기 위해서 분산 컴퓨터 네트워크 기술을 사용하는 오픈 소스 소프트웨어 유틸리티들의 모음이다. 수천개의 노드에서 실행 할 수 있으며, 테라바이트 혹은 페타바이트 단위의 데이터를 저장하고 처리 할 수 있다. 아파치 하둡의 핵심은 HDFS로 알려진 분산 파일 저장소와 분산 프로그래밍 모델인 MapRed...

빅 데이터 개요

빅데이터 쪽은 드문드문 했다. AWS를 기반으로 개발활동을 하고 있으니, AWS 환경에서 빅데이터를 제대로 시작해보기로 한다. 하여 문서들을 정주행하기로 했다. 이 문서는 스터디노트 정도로 보면 되겠다. 가장 기본이 되는 빅 데이터 개요 문서 부터 시작한다. 빅 데이터 개요는 4개의 모듈로 구성된다. 1. 빅 데이터 개요 2. 데이터베이스 아키텍처 3. H...

Aurora에 Billion 데이터 밀어 넣기

주기적으로 수 시간안에 빌리언 데이터를 밀어 넣어야 하는 요구가 생겼다. 애초에 이런 대규모의 데이터를 주기적으로 밀어 넣어야 하는 상황이 있을까 하는 물음은 있을 수 있겠는데, 데이터가 커지는 요즘 이런 요구는 드물지 않게 생길 것 같다. 수집한 데이터를 분석 한 다음, 서비스 데이터베이스로 밀어 넣어야 하기 때문이다.데이터는 {Key,Value} 타입이...