SRE 적용

Cloud Native 환경에서 SRE를 적용해 보려 한다. 다양한 사례들을 수집하고, 수집한 내용들을 운용중인 AWS에 접목하기 위한 나의 고민들로 채워진다. SRE에 대한 이론적인 내용보다는 실질적인 내용을 주로 다룰 것이다. 아주 먼 옛날에 IT 회사는 개발과 운영이 서로 분리돼 있었다. 좀 더 들어가보면 개발, 운영, 설계, 기획, 마케팅 등이 전부...

SRE - Site Reliability Engineering

Site Reliability Engineering(이하 사이트 신뢰성 엔지니어링 혹은 SRE로 표기한다.)는 소프트웨어 엔지니어링 기술들을 인프라 및 운영에 적용하는 것을 의미한다. SRE 팀을 이끌고 있는 Google의 Ben Trenor에 따르면, SRE는 "소프트웨어 엔지니어가 이전에는 작업이라고 불렀던 일을 처리 할 때 어떤 일이 일어날지"에 대한...

CloudWatch

CloudWatch는 1. AWS 클라우드 리소스와 1. AWS에서 실행되는 애플리케이션을 위한 모니터링 서비스다. 나는 특히 2번에 관심이 많다. 애플리케이션 로그는 보통 ELK 스택을 이용하기 마련이다. ELK는 매우 훌륭한 툴이긴 한데, 인프라 구성이 다양해 지면서 통합관리하는데 어려움을 느끼고 있다. 예컨데 EC2 기반으로만 한다면, 인스턴스 실...