HOME > 상세정보

상세정보

러닝 스파크 (28회 대출)

자료유형
단행본
개인저자
Karau, Holden, 저 Konwinski, Andy, 저 Wendell, Patrick, 저 Zaharia, Matei, 저 박종영, 역
서명 / 저자사항
러닝 스파크 / 홀든 카로 [외]지음 ; 박종영 옮김
발행사항
파주 :   제이펍,   2015  
형태사항
xxiv, 312 p. : 삽화 ; 25 cm
원표제
Learning Spark
ISBN
9791185890333
일반주기
공저자: 앤디 콘빈스키, 패트릭 웬델, 마테이 자하리아  
색인수록  
일반주제명
Big data Data mining --Computer programs
000 00000nam c2200205 c 4500
001 000045846955
005 20151019165218
007 ta
008 151019s2015 ggka 001c kor
020 ▼a 9791185890333 ▼g 93000
040 ▼a 211009 ▼c 211009 ▼d 211009
041 1 ▼a kor ▼h eng
082 0 0 ▼a 006.3/12 ▼2 23
085 ▼a 006.312 ▼2 DDCK
090 ▼a 006.312 ▼b 2015z4
245 0 0 ▼a 러닝 스파크 / ▼d 홀든 카로 [외]지음 ; ▼e 박종영 옮김
246 1 9 ▼a Learning Spark
260 ▼a 파주 : ▼b 제이펍, ▼c 2015
300 ▼a xxiv, 312 p. : ▼b 삽화 ; ▼c 25 cm
500 ▼a 공저자: 앤디 콘빈스키, 패트릭 웬델, 마테이 자하리아
500 ▼a 색인수록
650 0 ▼a Big data
650 0 ▼a Data mining ▼x Computer programs
700 1 ▼a Karau, Holden, ▼e
700 1 ▼a Konwinski, Andy, ▼e
700 1 ▼a Wendell, Patrick, ▼e
700 1 ▼a Zaharia, Matei, ▼e
700 1 ▼a 박종영, ▼e
900 1 0 ▼a 카로, 홀든, ▼e
900 1 0 ▼a 콘빈스키, 앤디, ▼e
900 1 0 ▼a 웬델, 패트릭, ▼e
900 1 0 ▼a 자하리아, 마테이, ▼e
945 ▼a KLPA

No. 소장처 청구기호 등록번호 도서상태 반납예정일 예약 서비스
No. 1 소장처 과학도서관/Sci-Info(1층서고)/ 청구기호 006.312 2015z4 등록번호 121234439 도서상태 대출가능 반납예정일 예약 서비스 B M
No. 2 소장처 의학도서관/자료실(3층)/ 청구기호 006.312 2015z4 등록번호 131049919 도서상태 대출가능 반납예정일 예약 서비스 B
No. 3 소장처 세종학술정보원/과학기술실/ 청구기호 006.312 2015z4 등록번호 151327806 도서상태 대출가능 반납예정일 예약 서비스
No. 소장처 청구기호 등록번호 도서상태 반납예정일 예약 서비스
No. 1 소장처 과학도서관/Sci-Info(1층서고)/ 청구기호 006.312 2015z4 등록번호 121234439 도서상태 대출가능 반납예정일 예약 서비스 B M
No. 소장처 청구기호 등록번호 도서상태 반납예정일 예약 서비스
No. 1 소장처 의학도서관/자료실(3층)/ 청구기호 006.312 2015z4 등록번호 131049919 도서상태 대출가능 반납예정일 예약 서비스 B
No. 소장처 청구기호 등록번호 도서상태 반납예정일 예약 서비스
No. 1 소장처 세종학술정보원/과학기술실/ 청구기호 006.312 2015z4 등록번호 151327806 도서상태 대출가능 반납예정일 예약 서비스

컨텐츠정보

책소개

I♥Cloud 시리즈 10권. 이 책은 스파크를 빠르게 익히고 실행할 수 있도록 쓰인 책이다. 스파크를 만든 사람들이 쓴 이 책은 데이터 과학자들이나 엔지니어들이 곧바로 스파크를 쓸 수 있게 해 줄 것이다. 이 책을 통해 병렬 작업들을 코드 몇 라인으로만 실행하는 방법과 단순한 배치 프로그램부터 스트림 처리나 머신 러닝까지 다루는 프로그램의 제작 방법을 배울 수 있다.


창시자와 커미터가 직접 저술한 스파크 입문서 !

스파크를 만든 사람들이 쓴 이 책은 데이터 과학자들이나 엔지니어들이 곧바로 스파크를 쓸 수 있게 해 줄 것이다. 이 책을 통해 병렬 작업들을 코드 몇 라인으로만 실행하는 방법과 단순한 배치 프로그램부터 스트림 처리나 머신 러닝까지 다루는 프로그램의 제작 방법을 배울 수 있다.

창시자와 커미터가 직접 저술한 스파크 입문서 !

모든 분야에서 데이터는 점점 많아지고 있다. 어떻게 그 엄청난 데이터를 효과적으로 다룰 것인가? 이 책은 데이터 분석 작업을 빠르게 작성하고 실행하게 해 주는 오픈 소스 클러스터 컴퓨팅 시스템인 스파크를 소개한다. 스파크에서 파이썬, 자바, 스칼라로 제공되는 간단한 API들을 써서 방대한 데이터세트를 가볍게 처리할 수 있다.

스파크를 만든 사람들이 쓴 이 책은 데이터 과학자들이나 엔지니어들이 곧바로 스파크를 쓸 수 있게 해 줄 것이다. 이 책을 통해 병렬 작업들을 코드 몇 라인으로만 실행하는 방법과 단순한 배치 프로그램부터 스트림 처리나 머신 러닝까지 다루는 프로그램의 제작 방법을 배울 수 있다.

■ 분산 데이터세트, 메모리 기반 캐싱, 대화형 셸 같은 스파크의 특징들을 빠르게 파고든다
■ 스파크 SQL, 스파크 스트리밍, MLlib 같은 스파크의 강력한 내장 라이브러리를 효과적으로 쓸 수 있다
■ 하이브, 하둡, 머하웃, 스톰 등 여러 도구를 혼용하고 연동하는 대신, 일관된 프로그래밍 개념을 사용한다
■ 대화형, 배치, 스트리밍 애플리케이션들을 서버에 올리는 방법을 배운다
■ HDFS, 하이브, JSON, S3 같은 데이터 소스에 연결할 수 있다
■ 데이터 파티셔닝이나 공유 변수 같은 고급 개념들을 익힌다


정보제공 : Aladin

저자소개

홀든 카로(지은이)

트랜스젠더 캐나다인이면서 IBM 스파크 기술 센터의 소프트웨어 개발 엔지니어다. 그녀는 스파크 커미터이면서 파이 스파크와 머신러닝에 많은 기여를 하고 있다. 또한, 다양한 국제 콘퍼런스에서 스파크 발표자로 활동하고 있다.

앤디 콘빈스키(지은이)

데이터브릭스의 공동 창업자이다. 박사과정으로 재학하다가 UC 버클리(Berkeley)의 AMPLab에서 박사 후 과정을 수행하며 대용량 분산 컴퓨팅과 클러스터 스케줄링에 대해 연구했다. 그는 아파치 메소스(Apache Mesos) 프로젝트의 공동 창시자이며 커미터이다. 또한, 구글에서 차세대 클러스터 스케줄링 시스템인 오메가(Omega)를 설계하며 시스템 엔지니어들 및 연구원들과 일하였다. 최근에는 AMP 캠프 빅데이터 부트캠프와 스파크 서밋을 주최하고 이끌고 있으며, 스파크 프로젝트에도 공헌하고 있다.

패트릭 웬델(지은이)

데이터브릭스의 공동 창업자이며 스파크 커미터이자 PMC 멤버이다. 스파크 프로젝트에서 스파크 1.0을 포함해 여러 버전의 릴리스 관리자로 활동해 왔다. 패트릭은 또 스파크 코어 엔진의 여러 하부 시스템을 유지 관리하고 있다. 데이터브릭스 창업 이전에 UC 버클리에서 컴퓨터 과학 석사학위를 취득하였다. 그의 연구 분야는 대용량 분석의 워크로드에 대해 빠른 응답성을 보이는 스케줄링에 대한 것이었다. 프린스턴 대학(Princeton University)에서 컴퓨터 과학 교육 학사학위를 받기도 했다.

마테이 자하리아(지은이)

2009년에 아파치 스파크 프로젝트를 시작했고 UC버클리 대학교 박사 과정 동안 스파크와 함께 했습니다. 버클리의 여러 연구원 및 외부 공동 작업자와 함께 스파크의 핵심 API를 설계하고 스파크 커뮤니티를 성장시키고 있으며 구조적 API와 구조적 스트리밍 같은 새로운 개념을 만드는 데 참여하고 있습니다. 2013년 마테이와 버클리 스파크 팀은 오픈소스 프로젝트의 성장을 도우려 데이터브릭스를 설립하고 상업용 제품을 제공하기 시작했습니다. 현재 데이터브릭스의 최고 기술 전문가로 일하고 있으며 스탠퍼드 대학교의 컴퓨터 과학 분야 조교수를 맡아 대규모 시스템과 인공지능 분야를 연구하고 있습니다. 2013년에 UC버클리 대학교에서 컴퓨터 과학 박사학위를 취득했습니다. 마테이는 아파치 메소스 프로젝트의 초기 멤버이자 아파치 하둡의 커미터입니다. 마테이의 연구 내용은 2014 ACM Doctoral Dissertation Award 및 VMware Systems Research Award를 수상하며 인정받았습니다.

박종영(옮긴이)

한국 오라클, 세븐 네트웍스 코리아를 비롯한 여러 회사에서 DBMS 엔진 및 푸시 메시징 엔진 등을 개발했다. 그루터를 거쳐 지금은 쿠팡에서 빅데이터 관련 개발 업무를 하고 있다. 아파치 타조(http://tajo.apache.org) 커미터로도 활동 중이다. 옮긴 책으로는 《도커: 설치부터 운영까지》, 《러닝 스파크》가 있다.

정보제공 : Aladin

목차

Chapter 1 스파크를 이용한 데이터 분석 소개 _ 1
아파치 스파크란 무엇인가? _ 1
통합된 구성 _ 2
스파크는 누가, 무엇을 위해 사용할까? _ 5
스파크의 간략한 역사 _ 8
스파크의 버전과 릴리스 _ 9
스파크의 저장소 계층 _ 9

Chapter 2 스파크 맛보기 _ 11
스파크 다운로드하기 _ 11
스파크의 파이썬 셸과 스칼라 셸 소개 _ 13
스파크의 핵심 개념 소개 _ 18
단독 애플리케이션 _ 21
요약 _ 27

Chapter 3 RDD로 프로그래밍하기 _ 29
RDD 기초 _ 29
RDD 생성하기 _ 32
RDD의 연산 _ 34
스파크에 함수 전달하기 _ 38
많이 쓰이는 트랜스포메이션과 액션 _ 43
영속화(캐싱) _ 55
요약 _ 57

Chapter 4 키/값 페어로 작업하기 _ 59
배경 _ 60
페어 RDD 생성 _ 60
페어 RDD의 트랜스포메이션 _ 61
페어 RDD에서 쓸 수 있는 액션 _ 74
데이터 파티셔닝(고급) _ 75
요약 _ 86

Chapter 5 데이터 불러오기/저장하기 _ 87
배경 _ 87
파일 포맷 _ 88
파일 시스템 _ 109
스파크 SQL로 구조화 데이터 다루기 _ 111
데이터베이스 _ 114
요약 _ 120

Chapter 6 고급 스파크 프로그래밍 _ 121
소개 _ 121
어큐뮬레이터 _ 122
브로드캐스트 변수 _ 127
파티션별로 작업하기 _ 131
외부 프로그램과 파이프로 연결하기 _ 134
수치 RDD 연산들 _ 138
요약 _ 140

Chapter 7 클러스터에서 운영하기 _ 141
소개 _ 141
스파크 실행 구조 _ 142
spark-submit을 써서 애플리케이션 배포하기 _ 145
사용자 코드와 의존성 라이브러리 패키징하기 _ 148
스파크 애플리케이션 간의 스케줄링 _ 155
클러스터 매니저 _ 155
어떤 클러스터 매니저를 써야 할까? _ 167
요약 _ 167

Chapter 8 스파크 최적화 및 디버깅 _ 169
SparkConf로 스파크 설정하기 _ 169
실행을 구성하는 것: 작업, 태스크, 작업 단계 _ 174
정보 찾기 _ 180
성능에 관한 핵심 고려 사항 _ 185
요약 _ 191

Chapter 9 스파크 SQL _ 193
스파크 SQL 라이브러리 링크 _ 195
애플리케이션에서 스파크 SQL 사용하기 _ 197
데이터 불러오고 저장하기 _ 205
JDBC/ODBC 서버 _ 212
사용자 정의 함수 _ 216
스파크 SQL 성능 _ 218
요약 _ 221

Chapter 10 스파크 스트리밍 _ 223
간단한 예제 _ 224
아키텍처와 추상 개념 _ 227
트랜스포메이션 _ 232
출력 연산 _ 241
입력 소스 _ 243
24/7 운영 _ 252
스트리밍 UI _ 257
성능 고려 사항 _ 258
요약 _ 260

Chapter 11 MLlib로 해 보는 머신 러닝 _ 261
개요 _ 262
시스템 요구 사항 _ 263
머신 러닝의 기초 _ 263
데이터 타입 _ 268
알고리즘 _ 271
팁과 성능 고려 사항 _ 287
파이프라인 API _ 289
요약 _ 291

찾아보기 _ 292

관련분야 신착자료

Baumer, Benjamin (2021)
데이터분석과인공지능활용편찬위원회 (2021)
Harrison, Matt (2021)