HOME > 상세정보

상세정보

스파크 완벽 가이드 : 스파크를 활용한 빅데이터 처리와 분석의 모든 것

자료유형
단행본
개인저자
Chambers, Bill (William Andrew) Zaharia, Matei, 저 우성한, 역 이영호, 역 강재원, 역
서명 / 저자사항
스파크 완벽 가이드 : 스파크를 활용한 빅데이터 처리와 분석의 모든 것 / 빌 체임버스, 마테이 자하리아 지음 ; 우성한, 이영호, 강재원 옮김
발행사항
서울 : 한빛미디어, 2018
형태사항
795 p . : 삽화 ; 24 cm
원표제
Spark : the definitive guide : big data processing made simple
ISBN
9791162241288
일반주기
부록: A. 스파크 설치 및 실행, B. 더블린 원정대: 스파크 서밋 2017 더블린 참관기 색인수록
일반주제명
Information retrieval Big data Data mining --Computer programs Electronic data processing Telecommunication --Message processing Web servers --Computer programs Web applications --Development
000 00000nam c2200205 c 4500
001 000045964848
005 20181218144952
007 ta
008 181217s2018 ulka 001c kor
020 ▼a 9791162241288 ▼g 93000
040 ▼a 211009 ▼c 211009 ▼d 211009
041 1 ▼a kor ▼h eng
082 0 4 ▼a 006.312 ▼2 23
085 ▼a 006.312 ▼2 DDCK
090 ▼a 006.312 ▼b 2018z11
100 1 ▼a Chambers, Bill ▼q (William Andrew) ▼0 AUTH(211009)93882
245 1 0 ▼a 스파크 완벽 가이드 : ▼b 스파크를 활용한 빅데이터 처리와 분석의 모든 것 / ▼d 빌 체임버스, ▼e 마테이 자하리아 지음 ; ▼e 우성한, ▼e 이영호, ▼e 강재원 옮김
246 1 9 ▼a Spark : ▼b the definitive guide : big data processing made simple
246 3 9 ▼a Definitive guide : ▼b big data processing made simple
260 ▼a 서울 : ▼b 한빛미디어, ▼c 2018
300 ▼a 795 p . : ▼b 삽화 ; ▼c 24 cm
500 ▼a 부록: A. 스파크 설치 및 실행, B. 더블린 원정대: 스파크 서밋 2017 더블린 참관기
500 ▼a 색인수록
630 0 0 ▼a Spark (Electronic resource : Apache Software Foundation)
630 0 0 ▼a Apache (Computer file : Apache Group)
650 0 ▼a Information retrieval
650 0 ▼a Big data
650 0 ▼a Data mining ▼x Computer programs
650 0 ▼a Electronic data processing
650 0 ▼a Telecommunication ▼z Message processing
650 0 ▼a Web servers ▼x Computer programs
650 0 ▼a Web applications ▼x Development
700 1 ▼a Zaharia, Matei, ▼e▼0 AUTH(211009)5313
700 1 ▼a 우성한, ▼e▼0 AUTH(211009)139608
700 1 ▼a 이영호, ▼e
700 1 ▼a 강재원, ▼e
900 1 0 ▼a 체임버스, 빌, ▼e
900 1 0 ▼a 자하리아, 마테이, ▼e
945 ▼a KLPA

No. 소장처 청구기호 등록번호 도서상태 반납예정일 예약 서비스
No. 1 소장처 중앙도서관/제2자료실(3층)/ 청구기호 006.312 2018z11 등록번호 111801339 도서상태 대출가능 반납예정일 예약 서비스 B M
No. 2 소장처 과학도서관/Sci-Info(1층서고)/ 청구기호 006.312 2018z11 등록번호 121247125 도서상태 대출가능 반납예정일 예약 서비스 B M
No. 3 소장처 세종학술정보원/과학기술실/ 청구기호 006.312 2018z11 등록번호 151346511 도서상태 대출가능 반납예정일 예약 서비스
No. 소장처 청구기호 등록번호 도서상태 반납예정일 예약 서비스
No. 1 소장처 중앙도서관/제2자료실(3층)/ 청구기호 006.312 2018z11 등록번호 111801339 도서상태 대출가능 반납예정일 예약 서비스 B M
No. 소장처 청구기호 등록번호 도서상태 반납예정일 예약 서비스
No. 1 소장처 과학도서관/Sci-Info(1층서고)/ 청구기호 006.312 2018z11 등록번호 121247125 도서상태 대출가능 반납예정일 예약 서비스 B M
No. 소장처 청구기호 등록번호 도서상태 반납예정일 예약 서비스
No. 1 소장처 세종학술정보원/과학기술실/ 청구기호 006.312 2018z11 등록번호 151346511 도서상태 대출가능 반납예정일 예약 서비스

컨텐츠정보

책소개

스파크 창시자가 알려주는 스파크 활용과 배포, 유지 보수의 모든 것. 오픈소스 클러스터 컴퓨팅 프레임워크인 스파크의 창시자가 쓴 스파크에 대한 종합 안내서다. 스파크 사용법부터 배포, 유지 보수하는 방법까지 포괄적으로 익힐 수 있다.

스파크 2의 개선점과 새로운 기능을 자세히 설명합니다. 구조화된 스파크 API의 특징과 공통 기능은 물론이고, 엔드 투 엔드 스트리밍 애플리케이션을 구축하는 새로운 고수준 API인 구조적 스트리밍을 함께 살펴본다. 스파크를 모니터링, 튜닝, 디버깅하는 데 필요한 기본 지식을 습득할 수 있다. 나아가 스파크의 확장 머신러닝 라이브러리인 MLlib을 사용하는 방법과 시나리오를 익힐 수 있다.

스파크 활용과 배포, 유지 보수까지 전체적 흐름을 포괄적으로 안내하는 바이블
이 책은 쉽게 실행할 수 있는 스파크 예제와 모든 유형의 기본 사용 사례를 다루는 스파크 종합 안내서입니다. 스파크의 기초적인 내용부터 처리, 운용, 관리, 모니터링 그리고 그래프와 머신러닝에 이르기까지 다양한 내용을 종합적으로 설명합니다. 특히 스파크 2.0 기반의 고수준 신규 API인 DataFrame, Dataset, 스파크 SQL, 구조적 스트리밍(Structured Streaming)을 집중적으로 소개합니다. 스파크를 사용하려는 데이터 과학자와 데이터 엔지니어에게 많은 도움이 될 내용으로 구성했습니다.

이 책의 번역 품질을 최고로 높이기 위해 동분서주했던 역자들의 뼈를 깎는 노고를 언급하지 않을 수 없습니다. 매일 밤을 새우다시피 하며 방대한 분량의 원서를 수십 차례에 걸쳐 다듬고 소스 코드를 수정했으며, 열 명도 넘는 업계 실무자들을 치킨으로 유혹(!)하여 수 차례에 걸친 가혹한 베타 리딩 과정을 거쳤습니다. 원서에는 없는 '실행 환경 구축'에 필요한 구체적인 내용과 '스파크 서밋 2017 더블린 참관기'도 따로 집필하여 부록으로 실었습니다. 한편으로는 독자가 조금이라도 더 친근하고 편안한 느낌으로 읽을 수 있는 문장을 만들고자 노력했습니다. 이러한 담금질을 거쳐 탄생한 이 번역서가 여러분을 경이로운 스파크의 세계로 편안하게 인도해줄 것입니다.

관련 도서
● 아파치 스파크
● 9가지 사례로 익히는 고급 스파크 분석(2판)
● 하둡 완벽 가이드(4판)


정보제공 : Aladin

저자소개

빌 체임버스(지은이)

2014년에 몇몇 연구 프로젝트에 스파크를 도입했습니다. 데이터브릭스에서 제품 관리를 맡고 있으며 사용자들이 다양한 아파치 스파크 애플리케이션을 개발할 수 있는 환경을 만들기 위해 노력하고 있습니다. 또한 정기적으로 스파크와 관련된 블로그를 작성하고 콘퍼런스 발표와 밋업에 참여하고 있습니다. UC버클리 대학교 정보대학원에서 정보 관리와 시스템 분야의 석사학위를 취득했습니다.

마테이 자하리아(지은이)

2009년에 아파치 스파크 프로젝트를 시작했고 UC버클리 대학교 박사 과정 동안 스파크와 함께 했습니다. 버클리의 여러 연구원 및 외부 공동 작업자와 함께 스파크의 핵심 API를 설계하고 스파크 커뮤니티를 성장시키고 있으며 구조적 API와 구조적 스트리밍 같은 새로운 개념을 만드는 데 참여하고 있습니다. 2013년 마테이와 버클리 스파크 팀은 오픈소스 프로젝트의 성장을 도우려 데이터브릭스를 설립하고 상업용 제품을 제공하기 시작했습니다. 현재 데이터브릭스의 최고 기술 전문가로 일하고 있으며 스탠퍼드 대학교의 컴퓨터 과학 분야 조교수를 맡아 대규모 시스템과 인공지능 분야를 연구하고 있습니다. 2013년에 UC버클리 대학교에서 컴퓨터 과학 박사학위를 취득했습니다. 마테이는 아파치 메소스 프로젝트의 초기 멤버이자 아파치 하둡의 커미터입니다. 마테이의 연구 내용은 2014 ACM Doctoral Dissertation Award 및 VMware Systems Research Award를 수상하며 인정받았습니다.

우성한(옮긴이)

현재 빅데이터 솔루션 전문업체인 KT NexR의 책임 연구원으로 재직 중이다. 다수의 기업에서 모바일 게임, SNS 서비스, 결제 시스템 등 다양한 S/W 분야의 개발 경험이 있으며, 2011년 빅데이터의 매력에 빠져 빅데이터 분야의 오픈소스들을 다루기 시작했다. KT NexR의 대표적인 빅데이터 분석 솔루션 NDAP 개발에 참여했으며, 지금은 아키텍처 설계부터 프론트엔드/백엔드 개발까지 수행하는 풀 스택 엔지니어로서 실시간 빅데이터 처리 및 분석 솔루션인 Lean Stream 개발에 참여하고 있다.

이영호(옮긴이)

현재 kt NexR에서 R&D2 팀장을 맡고 있습니다. 시스템 통합과 빅데이터 솔루션 개발을 수행하던 멤브로스 대표를 역임했습니다. kt NexR에 빅데이터 엔지니어로 입사한 후 살아 있는 빅데이터를 경험했습니다. 다수의 배치/실시간 빅데이터 프로젝트에 참여했으며, 기술서적 번역과 빅데이터 강의를 즐깁니다. 현재 팀원들과 함께 아파치 스파크 기반의 빅데이터 처리 솔루션을 개발하고 있으며 빅데이터의 대중화에 큰 관심을 가지고 있습니다.

강재원(옮긴이)

롯데면세점 빅데이터팀 팀장이다. kt NexR의 데이터 사이언스팀 팀장과 SK C&C 데이터 사이언스 유닛 리더를 거치며 다양한 도메인에서 데이터 분석 업무를 수행했다. 최근에는 이커머스 산업에서 다양한 데이터를 결합하고 분석하여 초개인화(hyper-personalization)를 구현하기 위해 준지도 학습과 비지도 학습을 함께 응용한 분석 방법론을 연구하고 있다.

정보제공 : Aladin

목차

Part 1 빅데이터와 스파크 간단히 살펴보기 
CHAPTER 1 아파치 스파크란 
1.1 아파치 스파크의 철학 
1.2 스파크의 등장 배경 
1.3 스파크의 역사 
1.4 스파크의 현재와 미래 
1.5 스파크 실행하기 
1.6 정리 

CHAPTER 2 스파크 간단히 살펴보기 
2.1 스파크의 기본 아키텍처 
2.2 스파크의 다양한 언어 API 
2.3 스파크 API 
2.4 스파크 시작하기 
2.5 SparkSession 
2.6 DataFrame 
2.7 트랜스포메이션 
2.8 액션 
2.9 스파크 UI 
2.10 종합 예제 
2.11 정리 

CHAPTER 3 스파크 기능 둘러보기 
3.1 운영용 애플리케이션 실행하기 
3.2 Dataset: 타입 안정성을 제공하는 구조적 API 
3.3 구조적 스트리밍 
3.4 머신러닝과 고급 분석 
3.5 저수준 API 
3.6 SparkR 
3.7 스파크의 에코시스템과 패키지 
3.8 정리 

Part 2 구조적 API: DataFrame, SQL, Part 2Dataset 
CHAPTER 4 구조적 API 개요 
4.1 DataFrame과 Dataset 
4.2 스키마 
4.3 스파크의 구조적 데이터 타입 개요 
4.4 구조적 API의 실행 과정 
4.5 정리 

CHAPTER 5 구조적 API 기본 연산 
5.1 스키마 
5.2 컬럼과 표현식 
5.3 레코드와 로우 
5.4 DataFrame의 트랜스포메이션 
5.5 정리 

CHAPTER 6 다양한 데이터 타입 다루기 
6.1 API는 어디서 찾을까 
6.2 스파크 데이터 타입으로 변환하기 
6.3 불리언 데이터 타입 다루기 
6.4 수치형 데이터 타입 다루기 
6.5 문자열 데이터 타입 다루기 
6.6 날짜와 타임스탬프 데이터 타입 다루기 
6.7 null 값 다루기 
6.8 정렬하기 
6.9 복합 데이터 타입 다루기 
6.10 JSON 다루기 
6.11 사용자 정의 함수 
6.12 Hive UDF 
6.13 정리 

CHAPTER 7 집계 연산 
7.1 집계 함수 
7.2 그룹화 
7.3 윈도우 함수 
7.4 그룹화 셋 
7.5 사용자 정의 집계 함수 
7.6 정리 

CHAPTER 8 조인 
8.1 조인 표현식 
8.2 조인 타입 
8.3 내부 조인 
8.4 외부 조인 
8.5 왼쪽 외부 조인 
8.6 오른쪽 외부 조인 
8.7 왼쪽 세미 조인 
8.8 왼쪽 안티 조인 
8.9 자연 조인 
8.10 교차 조인(카테시안 조인) 
8.11 조인 사용 시 문제점 
8.12 스파크의 조인 수행 방식 
8.13 정리 

CHAPTER 9 데이터소스 
9.1 데이터소스 API의 구조 
9.2 CSV 파일 
9.3 JSON 파일 
9.4 파케이 파일 
9.5 ORC 파일 
9.6 SQL 데이터베이스 
9.7 텍스트 파일 
9.8 고급 I/O 개념 
9.9 정리 

CHAPTER 10 스파크 SQL 
10.1 SQL이란 
10.2 빅데이터와 SQL: 아파치 하이브 
10.3 빅데이터와 SQL: 스파크 SQL 
10.4 스파크 SQL 쿼리 실행 방법 
10.5 카탈로그 
10.6 테이블 
10.7 뷰 
10.8 데이터베이스 
10.9 select 구문 
10.10 고급 주제 
10.11 다양한 기능 
10.12 정리 

CHAPTER 11 Dataset 
11.1 Dataset을 사용할 시기 
11.2 Dataset 생성 
11.3 액션 
11.4 트랜스포메이션 
11.5 조인 
11.6 그룹화와 집계 
11.7 정리 

Part 3 저수준 API 
CHAPTER 12 RDD 
12.1 저수준 API란 
12.2 RDD 개요 
12.3 RDD 생성하기 
12.4 RDD 다루기 
12.5 트랜스포메이션 
12.6 액션 
12.7 파일 저장하기 
12.8 캐싱 
12.9 체크포인팅 
12.10 RDD를 시스템 명령으로 전송하기 
12.11 정리 

CHAPTER 13 RDD 고급 개념 
13.1 키-값 형태의 기초(키-값 형태의 RDD) 
13.2 집계 
13.3 cogroup 
13.4 조인 
13.5 파티션 제어하기 
13.6 사용자 정의 직렬화 
13.7 정리 

CHAPTER 14 분산형 공유 변수 
14.1 브로드캐스트 변수 
14.2 어큐뮬레이터 
14.3 정리 

Part 4 운영용 애플리케이션 
CHAPTER 15 클러스터에서 스파크 실행하기 
15.1 스파크 애플리케이션의 아키텍처 
15.2 스파크 애플리케이션의 생애주기(스파크 외부) 
15.3 스파크 애플리케이션의 생애주기(스파크 내부) 
15.4 세부 실행 과정 
15.5 정리 

CHAPTER 16 스파크 애플리케이션 개발하기 
16.1 스파크 애플리케이션 작성하기 
16.2 스파크 애플리케이션 테스트 
16.3 개발 프로세스 
16.4 애플리케이션 시작하기 
16.5 애플리케이션 환경 설정하기 
16.6 정리 

CHAPTER 17 스파크 배포 환경 
17.1 스파크 애플리케이션 실행을 위한 클러스터 환경 
17.2 클러스터 매니저 
17.3 기타 고려사항 
17.4 정리 

CHAPTER 18 모니터링과 디버깅 
18.1 모니터링 범위 
18.2 모니터링 대상 
18.3 스파크 로그 
18.4 스파크 UI 
18.5 디버깅 및 스파크 응급 처치 
18.6 정리 

CHAPTER 19 성능 튜닝 
19.1 간접적인 성능 향상 기법 
19.2 직접적인 성능 향상 기법 
19.3 정리 

Part 5 스트리밍 
CHAPTER 20 스트림 처리의 기초 
20.1 스트림 처리란 
20.2 스트림 처리의 핵심 설계 개념 
20.3 스파크의 스트리밍 API 
20.4 정리 

CHAPTER 21 구조적 스트리밍의 기초 
21.1 구조적 스트리밍의 기초 
21.2 핵심 개념 
21.3 구조적 스트리밍 활용 
21.4 스트림 트랜스포메이션 
21.5 입력과 출력 
21.6 스트리밍 Dataset API 
21.7 정리 

CHAPTER 22 이벤트 시간과 상태 기반 처리 
22.1 이벤트 시간 처리 
22.2 상태 기반 처리 
22.3 임의적인 상태 기반 처리 
22.4 이벤트 시간 처리의 기본 
22.5 이벤트 시간 윈도우 
22.6 스트림에서 중복 데이터 제거하기 
22.7 임의적인 상태 기반 처리 
22.8 정리 

CHAPTER 23 운영 환경에서의 구조적 스트리밍 
23.1 내고장성과 체크포인팅 
23.2 애플리케이션 변경하기 
23.3 메트릭과 모니터링 
23.4 알림 
23.5 스트리밍 리스너를 사용한 고급 모니터링 
23.6 정리 

Part 6 고급 분석과 머신러닝 
CHAPTER 24 고급 분석과 머신러닝 개요 
24.1 고급 분석에 대한 짧은 입문서 
24.2 스파크의 고급 분석 툴킷 
24.3 고수준 MLlib의 개념 
24.4 MLlib 실제로 사용하기 
24.5 모델 배포 방식 
24.6 정리 

CHAPTER 25 데이터 전처리 및 피처 엔지니어링 
25.1 사용 목적에 따라 모델 서식 지정하기 
25.2 변환자 
25.3 전처리 추정자 
25.4 고수준 변환자 
25.5 연속형 특징 처리하기 
25.6 범주형 특징 처리하기 
25.7 텍스트 데이터 변환자 
25.8 특징 조작하기 
25.9 특징 선택 
25.10 고급 주제 
25.11 정리 

CHAPTER 26 분류 
26.1 활용 사례 
26.2 분류 유형 
26.3 MLlib의 분류 모델 
26.4 로지스틱 회귀 
26.5 의사결정트리 
26.6 랜덤 포레스트와 그래디언트 부스티드 트리 
26.7 나이브 베이즈 
26.8 분류와 자동 모델 튜닝을 위한 평가기 
26.9 세부 평가지표 
26.10 일대다 분류기 
26.11 다층 퍼셉트론 
26.12 정리 

CHAPTER 27 회귀 
27.1 활용 사례 
27.2 MLlib에서 제공하는 회귀 모델 
27.3 선형 회귀 
27.4 일반화 선형 회귀 
27.5 의사결정트리 
27.6 랜덤 포레스트와 그래디언트 부스티드 트리 
27.7 고급 방법론 
27.8 평가기와 모델 튜닝 자동화 
27.9 평가지표 
27.10 정리 

CHAPTER 28 추천 
28.1 활용 사례 
28.2 교차최소제곱 알고리즘을 사용하여 협업 필터링 구현하기 
28.3 추천을 위한 평가기 
28.4 성과 평가지표 
28.5 빈발 패턴 마이닝 
28.6 정리 

CHAPTER 29 비지도 학습 
29.1 활용 사례 
29.2 모델 확장성 
29.3 k-평균 
29.4 이분법 k-평균 
29.5 가우시안 혼합 모델 
29.6 잠재 디리클레 할당 
29.7 정리 

CHAPTER 30 그래프 분석 
30.1 그래프 작성하기 
30.2 그래프 쿼리하기 
30.3 모티프 찾기 
30.4 그래프 알고리즘 
30.5 정리 

CHAPTER 31 딥러닝 
31.1 딥러닝이란 
31.2 스파크에서 딥러닝을 사용하는 방법 
31.3 딥러닝 라이브러리 
31.4 딥러닝 파이프라인을 사용한 간단한 예제 
31.5 정리 

Part 7 에코시스템 
CHAPTER 32 언어별 특성: 파이썬(PySpark)과 R(SparkR, sparklyr) 
32.1 PySpark 
32.2 R로 스파크 사용하기 
32.3 정리 

CHAPTER 33 에코시스템과 커뮤니티 
33.1 스파크 패키지 
33.2 커뮤니티 
33.3 정리 

부록 A 스파크 설치 및 실행 
부록 B 더블린 원정대: 스파크 서밋 2017 더블린 참관기

관련분야 신착자료

Taulli, Tom (2020)