
000 | 00000cam c2200205 c 4500 | |
001 | 000045936416 | |
005 | 20180326091403 | |
007 | ta | |
008 | 180323s2018 ulkad b 001c kor | |
020 | ▼a 9791161751054 ▼g 94000 | |
020 | 1 | ▼a 9788960772106 (Set) |
035 | ▼a (KERIS)BIB000014717328 | |
040 | ▼a 222003 ▼c 222003 ▼d 241026 ▼d 211009 | |
041 | 1 | ▼a kor ▼h eng |
082 | 0 4 | ▼a 006.312 ▼2 23 |
085 | ▼a 006.312 ▼2 DDCK | |
090 | ▼a 006.312 ▼b 2018z2 | |
100 | 1 | ▼a Thottuvaikkatumana, Rajanarayanan |
245 | 2 0 | ▼a (초보자를 위한) 아파치 스파크 2 : ▼b 스칼라와 파이썬을 활용한 대규모 분산 데이터 처리 애플리케이션 개발 / ▼d 라자나라야난 토투바이카투마나 지음 ; ▼e 방호남 옮김 |
246 | 1 9 | ▼a Apache Spark 2 for beginners : ▼b develop large-scale distributed data processing applications using Spark 2 in Scala and Python |
260 | ▼a 서울 : ▼b 에이콘, ▼c 2018 | |
300 | ▼a 382 p. : ▼b 삽화, 도표 ; ▼c 24 cm | |
440 | 0 0 | ▼a acorn+PACKT 시리즈 |
504 | ▼a 참고문헌과 색인수록 | |
700 | 1 | ▼a 방호남, ▼e 역 |
900 | 1 0 | ▼a 토투바이카투마나, 라자나라야난, ▼e 저 |
945 | ▼a KLPA |
Holdings Information
No. | Location | Call Number | Accession No. | Availability | Due Date | Make a Reservation | Service |
---|---|---|---|---|---|---|---|
No. 1 | Location Science & Engineering Library/Sci-Info(Stacks1)/ | Call Number 006.312 2018z2 | Accession No. 121243891 | Availability Available | Due Date | Make a Reservation | Service |
Contents information
Book Introduction
스파크 2.0을 처음 접하는 초보자부터 고급 개발자까지 활용할 수 있는 예제 중심의 스파크 2.0 종합 입문서. 빅데이터와 머신 러닝 시대를 맞아 안정적이고 빠른 데이터 처리 능력을 가진 분산 데이터 처리 플랫폼의 중요성이 부각되는 가운데 처리 속도, 안정성, 호환성을 모두 만족하는 오픈 소스 기반 프레임워크가 바로 스파크다.
스파크를 처음 접하는 초보자들이 내용을 쉽게 이해할 수 있도록 다양한 예제 중심으로 이뤄져 있다. 단순한 데이터 처리부터 복잡한 데이터 스트림, 메시지큐, 그래프 모델 등 다양한 난이도의 예제를 통해 스파크 2.0이 가진 장점을 모두 살펴볼 수 있을 것이다.
스파크 2.0을 처음 접하는 초보자부터 고급 개발자까지 활용할 수 있는 예제 중심의 스파크 2.0 종합 입문서다.
빅데이터와 머신 러닝 시대를 맞아 안정적이고 빠른 데이터 처리 능력을 가진 분산 데이터 처리 플랫폼의 중요성이 부각되는 가운데 처리 속도, 안정성, 호환성을 모두 만족하는 오픈 소스 기반 프레임워크가 바로 스파크다. 새로 나온 스파크 2.0은 기존 스파크보다 더욱 빠른 데이터 처리 속도와 다양한 머신 러닝 라이브러리 지원을 바탕으로 전 세계에서 활용되고 있다.
특히 이 책은 스파크를 처음 접하는 초보자들이 내용을 쉽게 이해할 수 있도록 다양한 예제 중심으로 이뤄져 있다. 단순한 데이터 처리부터 복잡한 데이터 스트림, 메시지큐, 그래프 모델 등 다양한 난이도의 예제를 통해 스파크 2.0이 가진 장점을 모두 살펴볼 수 있을 것이다.
★ 이 책에서 다루는 내용 ★
- 스칼라와 파이썬을 이용한 스파크 프로그래밍 모델과 스파크 2의 기초
- 스파크 SQL 사용법과 스칼라와 파이썬을 이용한 데이터프레임 활용
- R을 이용한 스파크 프로그래밍 기초
- 파이썬을 활용한 그래프 및 차트 그리기, 스파크 데이터 처리
- 스칼라와 파이썬을 이용한 스파크 스트림 처리
- 스파크 MLib을 활용한 머신 러닝
- 스파크 GraphX를 이용한 그래프 처리 기초
- 배운 것들을 종합해 하나의 완벽한 스파크 애플리케이션 실전 예제 개발
★ 이 책의 대상 독자 ★
스파크의 데이터 처리 능력과 R 또는 데이터 및 스트림 처리, 머신 러닝, 그래프 처리를 결합해 상호 운용 가능한 하나의 프레임워크에서 스칼라나 파이썬을 지원하는 통합 API를 활용하는 데 관심이 있는 애플리케이션 개발자 및 데이터 과학자, 대규모 데이터 솔루션 아키텍처라면 이 책이 큰 도움이 될 것이다.
★ 이 책의 구성 ★
1장, '스파크 기초'에서는 스파크 프레임워크 기초와 API 그리고 함께 제공되는 라이브러리를 논의하고 스파크를 사용하는 데이터 처리 생태계 전체를 살펴본다.
2장, '스파크 프로그래밍 모델'에서는 스파크에서 사용되는 함수 프로그래밍 방법론을 기초로 스파크의 유니폼 프로그래밍 모델에 대해 설명하고 RDD(Resilient Distributed Data Sets) 및 스파크 변환, 스파크 액션의 기본 사항을 다룬다.
3장, '스파크 SQL'에서는 가장 강력한 스파크 라이브러리 중 하나인 스파크 SQL에 관해 논의하고 스파크 프로그램과 함께 어떠한 방식으로 동작하는지 살펴본다. 또한 데이터 처리를 위해 스파크 SQL을 사용해 다양한 데이터 소스에 액세스하는 방법과 여러 종류의 데이터 소스 통합에 관해 설명한다.
4장, '스파크 R 프로그래밍'에서는 스파크 R API인 SparkR과 R에 관해 설명한다. 이를 통해 R 사용자는 익숙한 데이터 프레임 추상화를 사용해 스파크의 데이터 처리 기능을 사용할 수 있다. 더불어 R 사용자가 스파크 데이터 처리 생태계에 익숙해질 수 있는 기초 지식도 제공한다.
5장, '파이썬을 활용한 스파크 데이터 분석'에서는 스파크를 이용한 데이터 처리 방법과 파이썬에서 스파크와 함께 활용할 수 있는 다양한 차트 및 그래프 라이브러리에 대해 설명한다. 또한 프로그래밍 언어로서 파이썬을 선택하고 스파크 애플리케이션을 파이썬과 결합해서 활용하는 방법에 대해 논의한다.
6장, '스파크 스트림 처리'에서는 스트림(stream) 형태로 수집한 데이터를 캡처하고 처리하는 가장 강력한 스파크 라이브러리 중 하나인 스파크 스트리밍에 대해 설명한다. 분산 메시지 브로커인 카프카(Kafka)와 카프카의 소비자로 작동하는 스파크 스트리밍 애플리케이션에 대해서도 논의한다.
7장, '스파크 머신 러닝'에서는 입문 수준에서 머신 러닝 애플리케이션 개발에 사용하는 가장 강력한 스파크 라이브러리 중 하나인 스파크 MLlib에 대해 설명한다.
8장, '스파크 그래프 처리'에서는 그래프 데이터 구조를 처리하는 가장 강력한 스파크 라이브러리 중 하나인 스파크 GraphX에 대해 설명하고 그래프로 데이터를 처리하는 수많은 알고리즘을 살펴본다. GraphX 기초와 GraphX에서 제공하는 알고리즘을 사용해 구현한 몇 가지 유스 케이스도 설명한다.
9장, '스파크 애플리케이션 설계'에서는 스파크의 다양한 기능을 다루는 스파크 데이터 처리 애플리케이션 설계 및 개발에 대해 설명한다. 9장에서 다루는 대부분의 내용은 이미 앞에서 다룬 내용이다.
Information Provided By: :

Author Introduction
라자나라야난 토투바이카투마나(지은이)
줄여서 Raj는 다양한 나라의 회사에서 약 23년간 소프트웨어 개발 기술자로 일했다. 인도 및 싱가포르, 미국 등에서 일을 해왔고 현재는 영국에서 지내고 있다. 아키텍처 및 디자인, 소프트웨어 애플리케이션 개발 경력이 있으며, 유명한 데이터베이스 및 애플리케이션 개발 플랫폼, 웹 기술, 빅데이터 기술을 이용하는 일을 해왔다. 2000년 이후로는 주로 자바 관련기술을 써왔고 자바와 스칼라를 이용한 서버 프로그래밍을 해왔다. 많은 양의 트랜잭션 처리 및 분산, 동시성 처리 문제를 다뤄왔으며, 현재는 차세대 하둡 YARN을 기반으로 한 데이터 처리 플랫폼과 스칼라 기반의 아파치 스파크를 이용한 애플리케이션 스위트(suite)를 개발하고 있다. 그는 수학과 컴퓨터 정보 처리 시스템 분야에서 모두 석사 학위를 보유하고 있고 수많은 ITIL 수료증을 받았다. 클라우드 컴퓨터 관련 수업도 이수했다. 『Cassandra Design Patterns - Second Edition』(Packt, 2015)의 저자이기도 하다. 한가할 때는 클래식 음악을 듣고 테니스를 즐긴다.
방호남(옮긴이)
공대 남자 엔지니어 5명이서 함께한 결혼 관련 스타트업 창업을 시작으로, 한국 과학 기술 연구원, 실리콘밸리 스타트업을 거쳐 현재 시애틀에 있는 아마존 웹 서비스(AWS) 본사 EC2 서버 엔지니어로 일하고 있다. 서버부터 웹 프론트엔드, 안드로이드, 웹앱 등 다양한 분야에서 경력을 쌓아 왔고 요즘은 대규모 분산 처리 시스템 디자인과 운용을 주로 한다. 컴퓨터 한 대로 세상을 바꾸는 일이 가능한 시대에 개발자로 일할 수 있음에 늘 감사한다. 소프트웨어 자체보다 소프트웨어가 세상에 제공할 수 있는 가치를 탐구하는 것에 더 흥미를 느끼고 있다.

Table of Contents
1장. 스파크 기초 __아파치 하둡 소개 __스파크 분석 __스파크 설치 ____파이선 설치 ____R 설치 ____스파크 설치 ____개발 도구 설치 ____추가 소프트웨어 설치 ________IPython ________RStudio ________아파치 제플린 __참고문헌 __요약 2장. 스파크 프로그래밍 모델 __스파크 함수 프로그래밍 __스파크 함수 프로그래밍 ____스파크 RDD 불변성 ____스파크 RDD 분산 용이성 ____스파크 RDD 메모리 상주 ____스파크 RDD의 강력한 데이터 타입 지원 __스파크 RDD를 이용한 데이터 변환과 액션 __스파크 모니터링 __스파크 프로그래밍 기초 ____맵리듀스 ____조인 ____추가 액션 __파일에서 RDD 생성 ____스파크 라이브러리 스택 __참고문헌 __요약 3장. 스파크 SQL __데이터 구조 __왜 스파크 SQL인가? __스파크 SQL 해부 __데이터프레임 프로그래밍 ____SQL 프로그래밍 ____데이터프레임 API 프로그래밍 __스파크 SQL 집계 __스파크 SQL을 사용한 다중 데이터 소스 연결 __데이터셋 __데이터 카탈로그 __참고문헌 __요약 4장. 스파크 R 프로그래밍 __SparkR의 필요성 __R 언어의 기초 __R 데이터프레임과 스파크 __R을 이용한 스파크 데이터프레임 프로그래밍 ____SQL 프로그래밍 ____R 데이터프레임 API를 이용한 프로그래밍 __스파크 R을 이용한 집계 __SparkR을 이용한 다중 데이터 소스 조인 __참고문헌 __요약 5장. 파이선과 함께하는 스파크 데이터 분석 __차트 및 그래프 작성 라이브러리 __데이터셋 설정 __데이터 분석 유스 케이스 __차트와 그래프 ____히스토그램 ____밀도 그래프 ____막대 차트 ________누적 막대형 차트 ____파이 차트 ________도넛 차트 ____상자 그래프 ____수직 막대 그래프 ____산점도 ________강화된 산점도 ____라인 그래프 __참고문헌 __요약 6장. 스파크 스트림 처리 __데이터 스트림 처리 __마이크로 배치 데이터 처리 ____DStream 프로그래밍 __로그 이벤트 처리기 ____넷캣 서버 시작 ____파일 정리 ____스파크 클러스터 작업 제출 ____애플리케이션 모니터링 ____스칼라 애플리케이션 구현 ____애플리케이션 컴파일 및 실행 ____출력 결과물 처리 ____파이선 애플리케이션 실행 __구간 데이터 처리 ____스칼라 애플리케이션 로그 이벤트 메시지 빈도수 세기 ____파이선 애플리케이션 로그이벤트 메시지 빈도수 세기 __추가 처리 옵션 __카프카 스트림 처리 ____주키퍼와 카프카 시작하기 ____스칼라 애플리케이션 구현 ____파이선 애플리케이션 구현 __실제 스파크 스트리밍 작업 ____스파크 데이터 처리 애플리케이션 실패-내구성 구현 ____구조 데이터 스트리밍 __참고문헌 __요약 7장. 스파크 머신 러닝 __머신 러닝 __스파크가 머신 러닝에 적합한 이유 __와인 품질 예측 __모델 저장 __와인 분류 __스팸 필터링 __특징 알고리즘 __동의어 찾기 __참고문헌 __요약 8장. 스파크 그래프 처리 __그래프와 사용 사례 이해 __스파크 GraphX 라이브러리 ____GraphX overview ____그래프 분할 ____그래프 처리 ____그래프 구조 처리 __테니스 토너먼트 분석 __페이지랭크 알고리즘 적용 __연결된 구성 요소 알고리즘 __그래프프레임 __그래프프레임 쿼리 __참고문헌 __요약 9장. 스파크 애플리케이션 디자인 __람다 아키텍처 __람다 아키텍처 마이크로블로깅 ____SfbMicroBlog 오버뷰 ____데이터 이해 ____데이터 사전 설정 __람다 아키텍처 구현 ____배치 레이어 ____서빙 레이어 ____스피드 레이어 ________쿼리 __스파크 애플리케이션 작업 __코딩 스타일 __소스 코드 셋업 __데이터 소화 __뷰와 쿼리 생성 __커스텀 데이터 처리 이해 __참고문헌 __요약