HOME > 상세정보

상세정보

러닝 스파크 : 아파치 스파크를 이용한 데이터 분석 및 머신러닝 알고리즘 / 개정판

자료유형
단행본
개인저자
Damji, Jules S., 저 Wenig, Brooke, 저 Das, Tathagata, 저 Lee, Denny, 저 박종영, 역 이성수, 역
서명 / 저자사항
러닝 스파크 : 아파치 스파크를 이용한 데이터 분석 및 머신러닝 알고리즘 / 줄스 담지 외 지음; 박종영 , 이성수 옮김
판사항
개정판
발행사항
파주 :   제이펍,   2022  
형태사항
382 p. ; 25 cm
총서사항
제이펍의 클라우드 시리즈 ;24
원표제
Learning spark
ISBN
9791191600889
일반주기
공저자: 웨닉 브룩, 다스 타타가타, 리 데니  
색인수록  
000 00000cam c2200205 c 4500
001 000046124261
005 20220901142435
007 ta
008 220809s2022 ulk 001a kor
020 ▼a 9791191600889 ▼g 93000
040 ▼a 211009 ▼c 211009 ▼d 211009
082 0 4 ▼a 006.312 ▼2 23
085 ▼a 006.312 ▼2 DDCK
090 ▼a 006.312 ▼b 2022z9
245 1 0 ▼a 러닝 스파크 : ▼b 아파치 스파크를 이용한 데이터 분석 및 머신러닝 알고리즘 / ▼d 줄스 담지 외 지음; ▼e 박종영 , ▼e 이성수 옮김
246 1 9 ▼a Learning spark
250 ▼a 개정판
260 ▼a 파주 : ▼b 제이펍, ▼c 2022
300 ▼a 382 p. ; ▼c 25 cm
490 1 0 ▼a 제이펍의 클라우드 시리즈 ; ▼v 24
500 ▼a 공저자: 웨닉 브룩, 다스 타타가타, 리 데니
500 ▼a 색인수록
700 1 ▼a Damji, Jules S., ▼e
700 1 ▼a Wenig, Brooke, ▼e
700 1 ▼a Das, Tathagata, ▼e
700 1 ▼a Lee, Denny, ▼e
700 1 ▼a 박종영, ▼e
700 1 ▼a 이성수, ▼e
830 0 ▼a 제이펍의 클라우드 시리즈 ; ▼v 24
900 1 0 ▼a 담지, 줄스, ▼e
900 1 0 ▼a 웨닉,브룩, ▼e
900 1 0 ▼a 다스, 타타가타, ▼e
900 1 0 ▼a 리, 데스, ▼e

소장정보

No. 소장처 청구기호 등록번호 도서상태 반납예정일 예약 서비스
No. 1 소장처 세종학술정보원/과학기술실/ 청구기호 006.312 2022z9 등록번호 151360981 도서상태 대출가능 반납예정일 예약 서비스 B M

컨텐츠정보

책소개

스파크 창시자 '마테이 자하리아'가 추천하는 스파크 입문서의 결정판. 스파크 3.x를 포함하여 업데이트된 이 개정판은 데이터 엔지니어와 데이터 과학자에게 스파크의 구조와 통합이 중요한 이유를 보여준다. 간단한 것에서부터 복잡한 것까지 데이터 분석을 수행하고, 머신러닝 알고리즘의 사용 방법을 체계적으로 설명한다.

스파크 창시자 '마테이 자하리아'가 추천하는 스파크 입문서의 결정판!
《러닝 스파크: 번개같이 빠른 데이터 분석》의 제2판이 출간되었습니다.


데이터가 점점 더 커지고 점점 더 빨리 생성되며 다양한 형식으로 제공되면서, 분석이나 머신러닝을 위한 대규모 처리 또한 요구되고 있습니다. 이러한 대규모 워크로드를 효율적으로 처리할 수 있는 대안이 바로 아파치 스파크입니다.
스파크 3.x를 포함하여 업데이트된 이 개정판은 데이터 엔지니어와 데이터 과학자에게 스파크의 구조와 통합이 중요한 이유를 보여줍니다. 간단한 것에서부터 복잡한 것까지 데이터 분석을 수행하고, 머신러닝 알고리즘의 사용 방법을 체계적으로 설명합니다.
단계별 연습, 코드 예제와 노트북 등을 통해 다음을 수행할 수 있습니다.

■ 파이썬, SQL, 스칼라, 자바를 이용한 고차원 정형 API 학습
■ 스파크 작업과 SQL 엔진의 이해
■ 스파크 설정 및 스파크 UI를 사용하여 스파크 작업을 검사, 튜닝, 디버깅
■ JSON, 파퀘이, CSV, 에이브로, ORC, 하이브, S3, 카프카와 같은 데이터 소스에 연결
■ 정형 스트리밍을 사용하여 배치 및 스트리밍 데이터에 대한 분석 수행
■ 오픈소스 델타 레이크 및 스파크로 안정적인 데이터 파이프라인 구축
■ MLlib을 사용하여 머신러닝 파이프라인을 개발하고 MLflow를 사용하여 모델 재생산 및 배포


정보제공 : Aladin

저자소개

데니 리(지은이)

마이크로소프트에서 Azure 다큐먼트 DB 팀의 프로그램 매니저로 근무 중이다. 분산 시스템 인프라 구조, 데이터 플랫폼, 클라우드 환경에서의 예측 분석 시스템에 관해 18년 이상의 경력을 가진 데이터 과학자 겸 데이터 엔지니어다. 본업 외에도 여러 프로젝트에서 큰 역할을 해왔다. Azure 다큐먼트 DB 팀에 들어오기 전에는 데이터브릭스에서 기술 전도사로 활동하기도 했으며, 아파치 스파크 버전 0.5부터 사용했다. 컨커(Concur)의 데이터 과학 엔지니어링 부서에서 시니어 디렉터로 일했고, 마이크로소프트의 윈도우용 하둡과 HDInsight로 알려진 Azure 서비스를 개발한 팀에서 일하기도 했다. 오리건 생명 과학 대학교(Oregon health and Sciences University)에서 정보의학(biomedicalinformatics) 석사 학위를 받았으며, 지난 15년 동안 헬스케어 고객을 위한 강력한 데이터 솔루션을 개발하기도 했다.

줄스 담지(지은이)

데이터브릭스(Databricks)의 선임 개발자 애드버킷이자 MLflow의 공헌자다.

브룩 웨닉(지은이)

데이터브릭스의 데이터 과학 수석 컨설턴트로 일하다가 현재는 머신러닝 실무 리더로 재직하고 있다.

타타가타 다스(지은이)

데이터브릭스의 선임 소프트웨어 엔지니어이자 아파치 스파크 커미터이면서 스파크 프로젝트 관리 위원회(PMC) 멤버다.

박종영(옮긴이)

한국 오라클, 세븐 네트웍스 코리아를 비롯한 여러 회사에서 DBMS 엔진 및 푸시 메시징 엔진 등을 개발했다. 그루터를 거쳐 지금은 쿠팡에서 빅데이터 관련 개발 업무를 하고 있으며, 시애틀에 거주 중이다. 옮긴 책으로는 《도커: 설치부터 운영까지》, 《러닝 스파크》, 《하이 퍼포먼스 스파크》(이상 제이펍)가 있다.

이성수(옮긴이)

한국 테라데이타, 쿠팡에서 데이터 엔지니어로 근무하며 데이터 웨어하우스, 데이터 엔지니어링, 데이터 분석에 관한 많은 프로젝트를 수행했다. 현재는 쿠팡에서 웹로그를 정제, 가공하여 사용자에게 제공하고, 이에 기반한 고객 행동 데이터 분석 플랫폼을 개발 및 운영하고 있다. 공저로는 《Amazon Redshift: 레드시프트 구축부터 성능, 쿼리, 비용 최적화까지 마스터하기》(에이콘출판사)가 있다.

정보제공 : Aladin

목차

옮긴이 머리말 x
베타리더 후기 xii
추천사 xiv
시작하며 xv
표지에 대하여 xxi

CHAPTER 1 아파치 스파크 소개: 통합 분석 엔진 1
스파크의 시작 1
아파치 스파크란 무엇인가? 4
통합된 분석 7
개발자의 경험 15

CHAPTER 2 아파치 스파크 다운로드 및 시작 19
1단계: 아파치 스파크 다운로드 19
2단계: 스칼라 혹은 파이스파크 셸 사용 22
로컬 머신 사용하기 24
3단계: 스파크 애플리케이션 개념의 이해 26
트랜스포메이션, 액션, 지연 평가 29
스파크 UI 31
첫 번째 단독 애플리케이션 34
요약 42

CHAPTER 3 아파치 스파크의 정형화 API 43
스파크: RDD의 아래에는 무엇이 있는가 44
스파크의 구조 확립 45
데이터 프레임 API 48
데이터세트 API 71
데이터 프레임 vs 데이터세트 77
스파크 SQL과 하부의 엔진 79
요약 85

CHAPTER 4 스파크 SQL과 데이터 프레임: 내장 데이터 소스 소개 86
스파크 애플리케이션에서 스파크 SQL 사용하기 87
SQL 테이블과 뷰 93
데이터 프레임 및 SQL 테이블을 위한 데이터 소스 98
요약 119

CHAPTER 5 스파크 SQL과 데이터 프레임: 외부 데이터 소스와 소통하기 120
스파크 SQL과 아파치 하이브 120
스파크 SQL 셸, 비라인 및 태블로로 쿼리하기 126
외부 데이터 소스 134
PostgreSQL 137
데이터 프레임 및 스파크 SQL의 고차 함수 144
일반적인 데이터 프레임 및 스파크 SQL 작업 150
요약 163

CHAPTER 6 스파크 SQL과 데이터세트 164
자바와 스칼라를 위한 단일 API 164
데이터세트 작업 167
데이터세트 및 데이터 프레임을 위한 메모리 관리 175
데이터 집합 인코더 176
데이터세트 사용 비용 178
요약 180

CHAPTER 7 스파크 애플리케이션의 최적화 및 튜닝 181
효율적으로 스파크를 최적화 및 튜닝하기 181
데이터 캐싱과 영속화 191
스파크 조인의 종류 196
스파크 UI 들여다보기 206
요약 213

CHAPTER 8 정형화 스트리밍 214
아파치 스파크의 스트림 처리 엔진의 진화 214
정형화 스트리밍의 프로그래밍 모델 218
정형화 스트리밍 쿼리의 기초 220
실행 중인 스트리밍 쿼리의 내부 227
스트리밍 데이터 소스와 싱크 233
데이터 트랜스포메이션 243
상태 정보 유지 스트리밍 집계 246
스트리밍 조인 255
임의의 상태 정보 유지 연산 263
성능 튜닝 272
요약 274

CHAPTER 9 아파치 스파크를 통한 안정적인 데이터 레이크 구축 275
최적의 스토리지 솔루션의 중요성 275
데이터베이스 277
데이터 레이크 279
레이크하우스: 스토리지 솔루션 진화의 다음 단계 282
아파치 스파크 및 델타 레이크로 레이크하우스 구축 285
요약 296

CHAPTER 10 MLlib을 사용한 머신러닝 298
머신러닝이란 무엇인가? 299
머신러닝 파이프라인 설계 302
하이퍼파라미터 튜닝 322
요약 338

CHAPTER 11 아파치 스파크로 머신러닝 파이프라인 관리, 배포 및 확장 339
모델 관리 339
MLlib을 사용한 모델 배포 옵션 346
비MLlib 모델에 스파크 활용 352
요약 358

CHAPTER 12 에필로그: 아파치 스파크 3.0 359
스파크 코어와 스파크 SQL 359
정형화 스트리밍 368
파이스파크, 판다스 UDF, 판다스 함수 API 370
변경된 기능들 373
요약 376

찾아보기 379


정보제공 : Aladin

관련분야 신착자료