HOME > Detail View

Detail View

Amazon Redshift : 레드시프트 구축부터 성능, 쿼리, 비용 최적화까지 마스터하기 (Loan 1 times)

Material type
단행본
Personal Author
김현준 이성수, 저
Title Statement
Amazon Redshift : 레드시프트 구축부터 성능, 쿼리, 비용 최적화까지 마스터하기 / 김현준, 이성수 지음
Publication, Distribution, etc
서울 :   에이콘,   2019  
Physical Medium
323 p. : 삽화, 도표 ; 24 cm
Series Statement
에이콘 클라우드 컴퓨팅 시리즈
ISBN
9791161753591
General Note
색인과 부록수록  
000 00000nam c2200205 c 4500
001 000046004725
005 20191106172418
007 ta
008 191105s2019 ulkad 001c kor
020 ▼a 9791161753591 ▼g 93000
040 ▼a 211009 ▼c 211009 ▼d 211009
082 0 4 ▼a 005.74 ▼2 23
085 ▼a 005.74 ▼2 DDCK
090 ▼a 005.74 ▼b 2019z3
100 1 ▼a 김현준
245 1 0 ▼a Amazon Redshift : ▼b 레드시프트 구축부터 성능, 쿼리, 비용 최적화까지 마스터하기 / ▼d 김현준, ▼e 이성수 지음
260 ▼a 서울 : ▼b 에이콘, ▼c 2019
300 ▼a 323 p. : ▼b 삽화, 도표 ; ▼c 24 cm
440 0 0 ▼a 에이콘 클라우드 컴퓨팅 시리즈
500 ▼a 색인과 부록수록
700 1 ▼a 이성수, ▼e
945 ▼a KLPA

Holdings Information

No. Location Call Number Accession No. Availability Due Date Make a Reservation Service
No. 1 Location Science & Engineering Library/Sci-Info(Stacks1)/ Call Number 005.74 2019z3 Accession No. 121250896 Availability Available Due Date Make a Reservation Service B M

Contents information

Book Introduction

아마존에서 제공하는 데이터 웨어하우스 서비스인 아마존 레드시프트를 처음 접하는 독자를 위한 책이다. 먼저 레드시프트 클러스터의 아키텍처를 자세히 설명한다. 다음으로 AWS 콘솔에서 클러스터를 생성하고 쿼리를 수행할 때 어떠한 데이터 구조를 가져가야 하는지, 어떤 쿼리를 수행해야 하는지 성능, 보안, 비용 측면에서 자세히 설명한다. 마지막으로 AWS에서 레드시프트 스펙트럼을 이용해 다른 서비스와 함께 데이터 레이크를 구축하는 방법을 예제를 들어 설명한다. 이 책을 읽고 나면 AWS 데이터 웨어하우스 구축의 시작부터 최적화까지 100% 활용할 수 있을 것이다.

★ 이 책에서 다루는 내용 ★

■ 데이터 분석에 맞춤화된 실습용 레드시프트 클러스터 생성
■ 다양한 형식의 데이터를 적재하고 최적화하는 방법
■ 실습 데이터를 이용해 최적화한 테이블 분산 방식과 소트키 선정 방법
■ 레드시프트 쿼리 프로파일링 방법
■ 레드시프트 쿼리 튜닝 노하우
■ 안정적인 레드시프트 클러스터 구성과 관리, 모니터링 방법
■ 레드시프트 WLM과 스냅샷, VACUUM 작업 100% 이해하기
■ 레드시프트 정보 보안 수준 향상 방법
■ 레드시프트 스펙트럼을 활용한 S3 데이터 쿼리 방법
■ 레드시프트 과금 방식과 비용 절감 방법
■ 일래스틱 리사이즈와 컨커런시 스케일

★ 이 책의 대상 독자 ★

AWS에서 레드시프트를 처음 들어본 사용자부터 레드시프트를 사용해 AWS 내에서 데이터 웨어하우스를 구축하고자 하는 데이터 엔지니어까지 모두 참고할 수 있다. 기존 데이터베이스 관련 지식이 있다면 아마존 레드시프트에서 다른 아키텍처를 어떻게 사용해야 성능의 이점을 최대화할 수 있는지 참고할 수 있다. 데이터베이스 관련 지식이 부족하더라도 기본적인 쿼리 사용법부터 레드시프트 구조까지 자세히 설명하기 때문에 기초 사용자의 레드시프트를 사용 길잡이가 돼줄 것이다. AWS 클라우드에서 데이터 웨어하우스 및 데이터레이크를 구축하고자 하는 엔지니어라면 레드시프트의 특징을 기반으로 저자의 많은 시행착오와 경험에서 나오는 팁들을 참고할 수 있으며, 이 책이 앞으로 겪게 될 폭풍 속의 등대가 돼줄 것이다. 또한 클라우드에 시스템을 구축하는 만큼 얼마나 적은 비용으로 최대한의 효과를 낼 수 있는가에 초점을 맞추고 있다. 아마존 레드시프트를 사용할 때의 여러 팁을 사용자의 환경에 맞춰 적용함으로써 비용 효율적인 시스템을 구축할 수 있도록 안내할 것이다.

★ 이 책의 구성 ★

각 장에서 다루는 내용은 레드시프트 클러스터 구축 과정 순서로 구성했다. 독자에 따라 필요한 장만 읽어볼 수도 있지만 설치형 데이터 웨어하우스와 다르게 클라우드 데이터 웨어하우스에서는 시스템 관리자와 데이터 제공자, 분석가의 경계가 미미하다. 시스템 관리자와 데이터 제공자는 분석가의 쿼리를 잘 알고 있어야 하며, 분석가는 클러스터와 데이터 구성을 잘 이해하고 있어야 최적화된 쿼리 성능을 발휘할 수 있다. 따라서 사용자 역할에 상관없이 처음부터 끝까지 읽기를 권장한다.

1장. AWS 소개
아마존 레드시프트를 다루기 전에 AWS 서비스의 간략한 소개와 출시 배경을 다룬다.

2장. 레드시프트 시작하기
AWS를 처음 접하거나 레드시프트 클러스터를 처음 생성한다면 생성 과정에 등장하는 용어와 옵션이 생소할 것이다. 레드시프트 시스템 아키텍처를 설명하고 AWS 클라우드와 데이터레이크에서 레드시프트의 역할을 이해한 다음 대용량 데이터 분석 환경에 맞춤화된 레드시프트 클러스터 구성 과정을 설명한다.

3장. 데이터 최적화
레드시프트 클러스터가 준비됐다면, 데이터 웨어하우스와 마트 데이터를 구성할 단계다. 데이터 적재부터 데이터 최적화까지 다룬다. 레드시프트에서 데이터 최적화는 쿼리 성능을 결정하는 가장 중요한 단계다. 많은 레드시프트 입문자가 어려워하는 테이블 분산 방식과 소트키를 설명한다. 3장에서 적재한 실습 데이터는 이후 학습 과정에서 활용한다.

4장. 쿼리 최적화
레드시프트와 같이 대용량 데이터를 대상으로 쿼리를 처리하는 데이터베이스 시스템에서의 쿼리 튜닝 작업은 매우 중요하다. 1만 레코드를 대상으로 한 쿼리가 튜닝을 통해 1초 빨라졌다고 가정하면 데이터가 백만, 천만, 1조 건으로 늘어나는 경우 튜닝의 결과는 백 배 천 배로 빨라질 수 있다. 4장에서는 쿼리를 분석하고 프로파일링한 다음 쿼리를 튜닝하는 노하우를 소개한다.

5장. 클러스터 최적화
2장에서 생성한 클러스터를 관리하고 시스템과 데이터 안정성을 높게 유지하는 방법을 설명한다. 또한 많은 레드시프트 입문자가 어려워하는 WLM 구성과 VACUUM 작업을 설명한다.

6장. 레드시프트 보안
레드시프트 클러스터를 관리하고 확장하려면 정보 보안을 간과할 수 없다. 6장에서는 레드시프트 관련 AWS 네트워크 기능을 소개한다. 그 후 사용자 인증과 권한 설정을 통해 데이터 접근을 통제하고, 클러스터와 S3에 저장되는 데이터 암호화로 정보 보안 수준을 높인다. 마지막으로 SSL 클라이언트 연결을 설정해 클라이언트와 클러스터 간 데이터가 안전하게 전송되게 한다.

7장. 레드시프트 스펙트럼
레드시프트 스펙트럼은 AWS S3 데이터레이크와 레드시프트를 연결해주는 고리다. 레드시프트 스펙트럼으로 S3에 저장된 데이터를 쿼리하고 분석하는 방법을 설명하며, 스펙트럼 관련 요금과 비용 절감 방법을 소개한다.

8장. 부록
일래스틱 리사이즈, 컨커런시 스케일과 같이 레드시프트에 새롭게 추가됐지만 학습에 빠트릴 수 없는 기능을 다룬다. 일래스틱 리사이즈를 사용해 클러스터를 재생성하지 않고 클러스터 크기를 변경할 수 있으며, 컨커런시 스케일은 레드시프트 고질적인 컨커런시 제한 문제를 해결해준다. 추가로 레드시프트와 연동되는 AWS 서비스인 AWS Glue와 AWS Athena를 소개한다. 마지막으로 AWS 사용자의 최대 관심사인 레드시프트 요금과 비용 절감 방법을 설명한다.


Information Provided By: : Aladin

Author Introduction

김현준(지은이)

SK C&C, 삼성 반도체, 쿠팡에서 근무하며 다양한 데이터 플랫폼 구축 경험을 쌓았다. 현재는 쿠팡의 데이터 인프라 팀에서 아마존 레드시프트와 EMR 데이터 플랫폼 구축 및 관리 업무를 맡고 있다. 최대 관심 분야는 분산 시스템, 분산 캐시 등의 기술로 데이터베이스 성능과 사용자 경험을 향상시키는 기술을 연구하고 있다. 여유 시간에는 RPi, FPV 드론, RC 자동차의 컨트롤러를 개발하며 미래형 메카닉을 꿈꾸고 있다.

이성수(지은이)

한국테라데이타, 쿠팡에서 데이터 엔지니어로 근무하며 지난 10년 동안 데이터 웨어하우스, 데이터 엔지니어링, 데이터 분석에 관한 많은 프로젝트를 수행하였다. 현재 쿠팡에서 시니어 데이터 엔지니어로 근무하면서 데이터 플랫폼뿐 아니라 다양한 원천 데이터에서 의미 있는 정보를 추출해 의사결정을 위한 레포트를 만드는 업무를 하고 있다. 업무 외 시간에는 가족과 함께 시간을 보낸다. 최근에는 IoT에 관심을 갖고 스마트 홈 구축에 흥미를 가지고 있다.

Information Provided By: : Aladin

Table of Contents

CHAPTER 1. AWS 소개

__1.1 클라우드 서비스
__1.2 클라우드 요금 제도
__1.3 고객 지원과 마케팅
____AWS re:Invent
____AWS Summit
____AWS TechConnect
____AWS Transformation Days
____AWS Online Tech Talks
____오픈소스
____API & SDK
____AWS 교육과 자격증
__1.4 지속적인 서비스 진화
__1.5 글로벌 가용성
__1.6 시스템 보안
__1.7 정리


CHAPTER 2. 레드시프트 시작하기

__2.1 Amazon Redshift
____레드시프트의 특징
____레드시프트 포지셔닝
__2.2 시작하기
____AWS 웹 콘솔 접속
____레드시프트 클러스터 생성
____노드 유형
__2.3 접속하기
____데이터베이스 툴
____JDBC 접속
____ODBC 접속
____Python 접속
____CLI 접속
__2.4 레드시프트 아키텍처
____시스템 아키텍처
____데이터 분산
____데이터 저장
__2.5 정리


CHAPTER 3. 데이터 최적화

__3.1 실습 데이터 적재
__3.2 테이블 생성
____CREATE TABLE
____CREATE TABLE AS
____CREATE TABLE LIKE
____CREATE TEMP TABLE
____CREATE TABLE IF NOT EXISTS
____테이블 생성 제약 사항
__3.3 컬럼
____데이터 자료형
____컬럼 인코딩
__3.4 데이터 분산
____테이블 분산 방식
____테이블 분산 방식 선택하기
__3.5 소트키
____존맵(Zone Map)
____컴파운드 소트키(COMPOUND SORT KEY)
____인터리브 소트키(INTERLEAVED SORT KEY)
____소트키 유형 선택하기
__3.6 데이터 적재와 추출
____COPY
____UNLOAD
__3.7 정리


CHAPTER 4. 쿼리 최적화

__4.1 SQL 복습
____WHERE
____GROUP BY
____JOIN
____쿼리 강제 종료
__4.2 쿼리 분석
____쿼리 플래닝
____실행 계획 분석하기
____오퍼레이터
____종료된 쿼리 분석하기
____시스템 점유율 분석하기
__4.3 쿼리 튜닝
____쿼리 패턴 분석과 테이블 디자인
____컬럼 프로젝션
____데이터 스캔 줄이기
____조건절에 함수 피하기
____GROUP BY 튜닝
____커밋 빈도 줄이기
____통계 정보 최신으로 유지하기
____데이터 재 분산 & 재 배포 피하기
____쿼리 결과 최소화하기
__4.4 정리


CHAPTER 5. 클러스터 최적화

__5.1 클러스터 설정
____관리자 뷰
____시스템 테이블
____파라미터 그룹
____WLM
____스냅샷
__5.2 클러스터 모니터링
____레드시프트 웹 콘솔 모니터링
____Audit 로깅
____레드시프트 어드바이저
__5.3 테이블 최적화
____ANALYZE
____VACUUM
____딥 카피
____데이터의 균형
__5.4 클러스터 자동화
____AWS Lambda
____CloudWatch Events
__5.5 정리


CHAPTER 6. 레드시프트 보안

__6.1 레드시프트 네트워크 인프라
____네트워크 플랫폼
____VPC & 서브넷
____라우팅 테이블
____인터넷 게이트웨이
____NAT 게이트웨이
____VPN(Virtual Private Network)
____VPC Endpoints(PrivateLink)
____네트워크 방화벽
__6.2 사용자 인증
____사용자 생성
____그룹 생성
____사용자 인증 보안
__6.3 사용자 권한
____테이블 권한
____스키마 권한
____데이터베이스 권한
____함수 권한
____UDF 언어 권한
____권환 회수
__6.4 데이터 보안
____데이터베이스 암호화
____S3 데이터 암호화
__6.5 SSL
____SSL 연결
____SSL 인증서
____Trust Store
____클러스터 설정
____클라이언트 설정
__6.6 정리


CHAPTER 7. 레드시프트 스펙트럼 사용하기

__7.1 레드시프트 Spectrum
__7.2 스펙트럼 구성하기
____IAM 역할 설정하기
____외부 스키마 생성하기
____외부 테이블 생성하기
____메타데이터 저장소
____테이블 파티셔닝
__7.3 스펙트럼 쿼리 작성하기
____외부 테이블 조회 쿼리 및 비교
____내부 테이블과 외부 테이블의 조인
__7.4 스펙트럼 비용
__7.5 레드시프트 스펙트럼 최적화
____최적화된 데이터 포맷 사용
____압축 파일 사용
____대량 병렬 처리를 위한 파일 분할
____데이터 파티셔닝
__7.6 정리


CHAPTER 8. 부록

__8.1 클러스터 리사이즈
____클래식 리사이즈
____스냅샷 리사이즈
____일래스틱 리사이즈
__8.2 컨커런시 스케일
____컨커런시 스케일 요금
__8.3 AWS Glue
__8.4 Amazon Athena
__8.5 레드시프트 비용
____온디맨드 요금
____리저브드 인스턴스 요금
____레드시프트 비용 절약 방법

New Arrivals Books in Related Fields