HOME > Detail View

Detail View

빅데이터 분석을 위한 스칼라와 스파크 : 대용량 빅데이터 분석과 머신 러닝까지 활용하는 (Loan 3 times)

Material type
단행본
Personal Author
Karim, Md. Rezaul Alla, Sridhar, 저 김용환, 역
Title Statement
빅데이터 분석을 위한 스칼라와 스파크 : 대용량 빅데이터 분석과 머신 러닝까지 활용하는 / 레자울 카림, 스리다 알라 지음 ; 김용환 옮김
Publication, Distribution, etc
서울 :   에이콘,   2019  
Physical Medium
1090 p. : 삽화 ; 24 cm
Series Statement
acorn+Packt technical book
Varied Title
Scala and Spark for big data analytics : explore the concepts of functional programming, data streaming, and machine learning
ISBN
9791161752402 9788960772106 (Set)
General Note
부록: A. Alluxio로 스파크의 처리 성능 높이기, B. 아파치 제플린에서 대화형 데이터 분석  
색인수록  
Subject Added Entry-Topical Term
Data mining Scala (Computer program language) Big data
000 00000cam c2200205 c 4500
001 000046012355
005 20200108102251
007 ta
008 200107s2019 ulka 001c kor
020 ▼a 9791161752402 ▼g 94000
020 1 ▼a 9788960772106 (Set)
035 ▼a (KERIS)BIB000015002681
040 ▼a 222001 ▼c 222001 ▼d 211009
041 1 ▼a kor ▼h eng
082 0 4 ▼a 006.3/12 ▼2 23
085 ▼a 006.312 ▼2 DDCK
090 ▼a 006.312 ▼b 2019z6
100 1 ▼a Karim, Md. Rezaul
245 1 0 ▼a 빅데이터 분석을 위한 스칼라와 스파크 : ▼b 대용량 빅데이터 분석과 머신 러닝까지 활용하는 / ▼d 레자울 카림, ▼e 스리다 알라 지음 ; ▼e 김용환 옮김
246 1 9 ▼a Scala and Spark for big data analytics : ▼b explore the concepts of functional programming, data streaming, and machine learning
260 ▼a 서울 : ▼b 에이콘, ▼c 2019
300 ▼a 1090 p. : ▼b 삽화 ; ▼c 24 cm
440 0 0 ▼a acorn+Packt technical book
500 ▼a 부록: A. Alluxio로 스파크의 처리 성능 높이기, B. 아파치 제플린에서 대화형 데이터 분석
500 ▼a 색인수록
630 0 0 ▼a Spark (Electronic resource : Apache Software Foundation)
650 0 ▼a Data mining
650 0 ▼a Scala (Computer program language)
650 0 ▼a Big data
700 1 ▼a Alla, Sridhar, ▼e
700 1 ▼a 김용환, ▼e
900 1 0 ▼a 카림, 레자울, ▼e
900 1 0 ▼a 알라, 스리다, ▼e
945 ▼a KLPA

No. Location Call Number Accession No. Availability Due Date Make a Reservation Service
No. 1 Location Science & Engineering Library/Sci-Info(Stacks1)/ Call Number 006.312 2019z6 Accession No. 521004703 Availability Available Due Date Make a Reservation Service B M
No. 2 Location Science & Engineering Library/Sci-Info(Stacks1)/ Call Number 006.312 2019z6 Accession No. 521004704 Availability Available Due Date Make a Reservation Service B M
No. 3 Location Sejong Academic Information Center/Science & Technology/ Call Number 006.312 2019z6 Accession No. 151349849 Availability Available Due Date Make a Reservation Service
No. Location Call Number Accession No. Availability Due Date Make a Reservation Service
No. 1 Location Science & Engineering Library/Sci-Info(Stacks1)/ Call Number 006.312 2019z6 Accession No. 521004703 Availability Available Due Date Make a Reservation Service B M
No. 2 Location Science & Engineering Library/Sci-Info(Stacks1)/ Call Number 006.312 2019z6 Accession No. 521004704 Availability Available Due Date Make a Reservation Service B M
No. Location Call Number Accession No. Availability Due Date Make a Reservation Service
No. 1 Location Sejong Academic Information Center/Science & Technology/ Call Number 006.312 2019z6 Accession No. 151349849 Availability Available Due Date Make a Reservation Service

Contents information

Book Introduction

스파크를 이용해 데이터 분석 방법을 배우려는 사람에게 매우 유용한 책이다. 가장 먼저 스칼라를 소개하고, 스칼라 애플리케이션 개발에 필요한 객체지향 개념과 함수형 프로그래밍 개념을 설명한다. 스파크에 초점을 맞춰 RDD와 데이터 프레임을 사용한 기본 추상화를 다룬다.

그 다음 스파크 SQL, GraphX, 스파크 구조화 스트리밍을 사용해 구조화된 데이터와 구조화되지 않은 데이터를 분석하고 모니터링, 설정, 디버깅, 테스팅, 배포와 같은 고급 주제를 살펴본다. 또한 SparkR 및 PySpark API를 사용한 스파크 애플리케이션을 개발하는 방법, 아파치 제플린(Zeppelin)을 사용한 대화식 데이터 분석, Alluxio를 함께 사용해 인메모리 데이터를 처리하는 방법을 다룬다.

이 책을 다 살펴본 후, 스파크를 완벽하게 이해하고 풀 스택 데이터 분석을 수행할 수 있을 것이다. 이 책은 최신 2.3.2 버전을 기준으로 작성됐다. 기존의 원서에서 제공하는 코드의 오타와 호환성을 수정한 옮긴이의 github 저장소를 제공한다.

★ 이 책에서 다루는 내용 ★

■ 스칼라의 객체지향 개념과 함수형 프로그래밍 개념 이해
■ 스칼라 컬렉션 API 이해
■ 스파크의 핵심 추상화를 알기 위해 RDD와 데이터 프레임으로 작업하기
■ 스파크 SQL과 GraphX를 사용해 구조 데이터와 구조화되지 않은 데이터 분석
■ 스파크 구조화 스트리밍을 사용해 확장 가능하고 내결함성 있는 스트리밍 애플리케이션 개발
■ 스파크 MLlib과 스파크 ML에서 많이 사용되는 알고리즘으로 예측 모델을 구축할 수 있는 분류, 회귀 분석, 차원 감소, 추천 시스템과 같은 머신 러닝 모범 사례
■ 방대한 양의 데이터를 클러스터링하는 클러스터링 모델 구축
■ 스파크 애플리케이션 튜닝, 디버깅, 모니터링 이해
■ 실제 독립형(Standalone), 메소스(Mesos), 얀(YARN), 쿠버네티스(Kubernetes) 모드의 클러스터에 스파크 애플리케이션 배포

★ 이 책의 대상 독자 ★

스파크를 이용해 데이터 분석 방법을 배우려는 사람에게 매우 유용한 책이다. 스파크나 스칼라에 대한 지식은 없더라도 이전 프로그래밍 경험(특히 다른JVM 언어)이 있다면 스파크나 스칼라에 대한 개념을 이해하는 데 매우 유용하다.
스칼라는 지난 몇 년 동안 특히 데이터 과학과 분석 분야에서 꾸준히 증가하고 있다. 스파크는 스칼라로 작성됐고 분석 분야에서 널리 사용되고 있다. 이 책은 빅데이터를 잘 다룰 수 있는 스파크를 설명한다.

★ 이 책의 구성 ★

1장, '스칼라 소개'에서는 스파크의 스칼라 기반 API를 사용해 빅데이터를 분석한다. 시작점으로 스파크 내부가 스칼라로 작성됐음을 설명하고 자연스럽게 스칼라의 역사, 목적, 윈도우/리눅스/맥OS에 스칼라를 설치하는 방법과 같은 기본 내용 등 스칼라에 대해 간단히 설명한다. 그리고 스칼라 웹 프레임워크에 대해 간략히 설명한다. 그다음 자바와 스칼라를 비교 분석한다. 마지막에 스칼라를 시작하기 위해 스칼라 프로그래밍을 살펴본다.
2장, '객체지향 언어, 스칼라'에서는 객체지향 프로그래밍(OOP) 패러다임이 완전히 새로운 추상화 계층을 제공한다고 설명한다. 간단히 말해 OOP 언어의 가장 큰 장점인 탐색 가능성,모듈성, 확장성을 설명한다. 특히 스칼라에서 변수를 처리하는 방법을 살펴본다. 스칼라에서 변수, 메소드, 클래스, 객체뿐 아니라 패키지, 패키지 객체, 트레이트, 트레이트 선형화, 자바와의 상호 호환성 등을 다룬다.
3장, '함수형 프로그래밍 개념'에서는 스칼라의 함수형 프로그래밍 개념을 소개한다. 스칼라가 데이터 과학자에게 무기가 되는 이유, 스파크 패러다임/순수 함수/고차 함수를 배우는 것이 중요한 이유와 같은 몇 가지 주제를 다룬다. 고차 함수를 사용하는 실제 사용 사례도 함께 소개한다. 그다음 스칼라 표준 라이브러리를 사용해 컬렉션 외부의 고차 함수에서 예외를 처리하는 방법을 살펴본다. 마지막으로 함수형 스칼라가 객체의 가변성에 어떤 영향을 주는지 살펴본다.
4장, '컬렉션 API'에서는 스칼라 사용자가 가장 큰 흥미를 얻는 기능 중 하나인 컬렉션 API를 소개한다. 스칼라 컬렉션 API는 매우 강력하고 유연하며 결합된 많은 연산을 갖고 있다. 그리고 스칼라 컬렉션 API의 기능을 소개할 뿐 아니라 다양한 타입의 데이터를 수용하고 다양한 문제를 해결할 때 컬렉션 API의 사용 방법을 소개한다. 마지막으로 스칼라 컬렉션 API, 타입과 계층 구조, 성능 특성, 자바 상호운용성, 스칼라 암시를 설명한다.
5장, '스파크로 빅데이터 다루기'에서는 데이터 분석과 빅데이터에 대해 설명한다. 빅데이터에서 제기되는 도전 과제, 분산 컴퓨팅 처리 방법, 함수형 프로그래밍 접근 방식을 살펴본다. 구글의 맵리듀스, 아파치 하둡, 아파치 스파크를 소개하고, 해당 오픈소스의 접근 방법과 기술의 사용 방법을 살펴본다. 아파치 스파크가 처음 만들어졌던 이유와 빅데이터 분석 및 처리 시 부딪혔던 도전 과제 등 아파치 스파크의 진화 과정을 살펴본다.
6장, '스파크로 REPL과 RDD로 작업'에서는 스파크 작동 방법을 다룬다. 그다음 아파치 스파크의 기본 추상화인 RDD를 소개하고 단순히 스칼라와 유사한 API를 제공하는 분산 컬렉션인지 확인한다. 아파치 스파크의 배포 옵션을 살펴보고 스파크 셸을 사용해 로컬에서 실행한다. 아파치 스파크의 내부 구조, RDD의 개념, DAG, RDD 계보, 트랜스포메이션, 액션을 다룬다.
7장, '특수 RDD 연산'에서는 다양한 요구 사항을 RDD가 어떻게 충족시키는지, 어떻게 RDD가 새로운 기능(위험성도 갖고 있다)을 제공하는지에 대해 중점적으로 다룬다. 또한 브로드캐스트 변수와 스파크에서 제공하는 누산기와 같은 유용한 객체를 살펴본다. 마지막으로 셔플링과 집계를 다룬다.
8장, '스파크 SQL'에서는 RDD의 하이레벨 추상화인 스파크 SQL로 구조화된 데이터를 분석하는 방법과 스파크 SQL API로 구조화된 데이터를 간단하면서도 견고하게 쿼리하는 방법을 소개한다. 또한 데이터셋을 소개하고 데이터셋, 데이터 프레임, RDD 간의 차이점을 살펴본다. 마지막으로 데이터 프레임 API를 사용해 복잡한 데이터 분석을 수행할 수 있는 조인 연산과 윈도우 함수를 살펴본다.
9장, '스파크 스트리밍'에서는 스파크 스트리밍을 소개하고, 스파크 API를 사용해 데이터 스트림을 스파크 스트리밍으로 처리하는 방법을 설명한다. 또한 트위터에 글을 트윗하고 처리하는 실제 사례를 사용해서 실시간 데이터 스트림을 처리하는 다양한 방법을 다룬다. 실시간 처리를 위해 아파치 카프카와 통합하는 방법도 살펴본다. 마지막으로 애플리케이션에서 실시간 쿼리를 제공할 수 있는 구조화 스트리밍을 살펴본다.
10장, 'GraphX'에서는 그래프를 사용해 얼마나 많은 실제 문제를 모델링하고 해결할 수 있는지 살펴본다. 페이스북을 예로 들어 그래프 이론, 스파크의 그래프 처리 라이브러리 GraphX, VertexRDD와 EdgeRDD, 그래프 연산자, aggregateMessages, triangleCount, Pregel API, 페이지랭크 알고리즘과 같은 사용 사례를 살펴본다.
11장, '머신 러닝 학습: 스파크 MLlib과 ML'에서는 통계 머신 러닝에 대한 개념적인 소개를 제공한다. 스파크의 머신 러닝 API인 스파크 MLlib과 스파크 ML을 집중적으로 다룬다. 디시전 트리(decision tree)와 랜덤 포레스트 알고리즘(random forest algorithm)을 이용한 분류 작업을 해결하는 방법과 선형 회귀 알고리즘을 이용한 회귀 문제를 해결한다.
또한 분류 모델을 훈련하기 전에 피처 추출에서 원핫(one-hot) 인코딩과 차원 축소 알고리즘을 사용함으로써 얻을 수 있는 이점을 보여준다. 그다음에는 협업 필터링 기반 영화 추천 시스템을 개발하는 단계별 예제를 보여준다.
12장, '고급 러닝 머신 모범 사례'에서는 스파크를 사용한 머신 러닝 고급 주제에 대한 이론과 실용적인 측면을 살펴본다. 그리드 검색, 교차 검증, 하이퍼파라미터 튜닝을 사용해 성능을 최적화하는 머신 러닝 모델 튜닝 방법을 배운다. 그리고 모델 기반의 추천 알고리즘 중인 하나인 ALS를 사용해 확장 가능한 추천 시스템 개발 방법을 다룬다. 마지막으로 주제 모델링 애플리케이션은 텍스트 클러스터링 기법을 활용한다.
13장, '나이브 베이즈'에서는 빅데이터 분야의 머신 러닝이 학계와 산업계 모두의 연구 분야에 큰 영향을 미친 급진적인 결합이라고 말한다. 빅데이터는 실제 가치를 찾기 위해 ML, 데이터 분석 툴, 알고리즘에 어려운 과제를 부과한다. 그러나 거대한 데이터셋을 기반으로 미래를 예측하는 것은 결코 쉬운 일이 아니다. 미래 예측과 관련해 ML을 자세히 살펴보고, 간단하지만 강력한 방법으로 다항 분류, 베이지안 추론, 나이브 베이즈, 디시전 트리, 나이브 베이즈와 디시전 트리의 비교 분석 등 확장 가능한 분류 모델과 개념을 구축하는 방법을 알아본다.
14장, '스파크 MLlib으로 데이터 클러스터링'에서는 스파크의 기본 아키텍처 기반으로 스파크가 클러스터 모드에서 어떻게 동작하는지 설명한다. 이전 여러 장에서 다양한 스파크 API를 사용해 실제 애플리케이션의 개발 방법을 살펴봤다면 14장에서는 클러스터에 전체 스파크 애플리케이션을 배포하는 방법뿐 아니라 기존 하둡을 설치했는지 또는 설치하지 않았는지 확인한다.
15장, '스파크 ML을 이용한 텍스트 분석'에서는 스파크 ML을 사용해 텍스트 분석을 설명한다. 텍스트 분석은 머신 러닝의 넓은 분야며, 정서 분석, 채팅 봇, 이메일 스팸 탐지, 자연어 처리 등과 같은 많은 사용 사례에서 유용하다. 10,000개의 트위터 샘플 데이터셋을 텍스트 분류 사용 사례에 중점을 둔 텍스트 분석에 스파크를 사용하는 방법을 살펴본다. 또한 실제 텍스트를 잘 모르는 상태에서 문서에서 주제를 생성하는 인기 있는 기술인 LDA를 살펴보고, LDA가 잘 동작하는지 트위터 데이터를 기반으로 텍스트 분류를 구현한다.
16장, '스파크 튜닝'에서는 스파크 내부를 깊이 있게 살펴본다. 그리고 스파크를 사용하는 것이 스칼라 컬렉션을 사용하는 것처럼 느껴지지만 실제 스파크가 분산 시스템에서 실행된다는 것을 잊지 말아야 한다. 또한 스파크 잡 모니터링, 스파크 설정, 스파크 애플리케이션 개발 시 발생하는 일반적인 실수, 최적화 기술에 대해 설명한다.
17장, '클러스터에 스파크 배포'에서는 스파크가 기본 아키텍처를 기반으로 클러스터 모드에서 어떻게 동작하는지 살펴본다. 클러스터에서 스파크 아키텍처, 스파크 생태계, 클러스터 관리를 살펴보고 독립형, 메소스(Mesos), 얀(Yarn), 쿠버네티스(kubernetes)에 스파크 애플리케이션을 배포하는 방법을 살펴본다. 마지막으로 클라우드 기반 AWS 클러스터에 스파크 애플리케이션을 배포하는 방법도 살펴본다.
18장, '스파크 테스팅과 디버깅'에서는 분산 배포된 애플리케이션의 테스팅에 대한 어려움을 설명하고, 테스팅을 해결할 방법을 살펴본다. 분산 환경에서 테스팅을 수행하는 방법과 스파크 애플리케이션을 테스팅하고 디버깅하는 방법을 다룬다.
19장, 'PySpark과 SparkR'에서는 파이썬과 R을 사용해 스파크 코드를 작성하는 데 사용되는 두 API, 즉 PySpark와 SparkR을 설명한다. 먼저 PySpark를 시작하는 방법을 설명한 후 PySpark로 데이터 프레임 API와 UDF에 상호작용하는 방법을 설명한다.
그리고 PySpark를 사용해 데이터 분석을 수행한다. 그다음에 SparkR을 시작하는 방법을 설명한다. 또한 데이터 처리과 조작 방법, SparkR을 사용한 RDD와 데이터 프레임을 사용하는 방법, 마지막으로 SparkR을 사용하는 일부 데이터 시각화 방법을 살펴본다.
부록 A, 'Alluxio로 스파크의 처리 성능 높이기'에서는 Alluxio를 스파크와 함께 사용해 처리 속도를 향상시키는 방법을 보여준다. Alluxio는 스파크를 포함한 여러 플랫폼에서 많은 애플리케이션의 속도를 높여주는 오픈소스 분산 메모리 저장 시스템이다.
Alluxio의 가능성을 살펴보고 Alluxio을 스파크와 통합해 스파크 잡을 실행할 때마다 메모리에 데이터를 캐시할 필요 없이 더 좋은 성능을 보여주는 부분을 보여준다.
부록 B, '아파치 제플린에서 대화형 데이터 분석'에서는 데이터 과학 관점에서 데이터 분석의 대화형, 시각적 효과가 중요함을 설명한다. 제플린은 여러 백엔드와 인터프리터가 있는 대화형, 대규모 데이터 분석을 위한 웹 기반 노트북이다. 그리고 백엔드에서 인터프리터로 스파크를 사용해 대규모 데이터를 분석할 수 있게 아파치 제플린을 사용하는 방법을 설명한다.


Information Provided By: : Aladin

Table of Contents

지은이 소개
기술 감수자 소개
옮긴이 소개
옮긴이의 말
들어가며

1장 스칼라 소개
2장 객체지향 언어, 스칼라
3장 함수형 프로그래밍 개념
4장 컬렉션 API
5장 스파크로 빅데이터 다루기
6장 스파크로 REPL과 RDD 작업
7장 특수 RDD 연산
8장 스파크 SQL
9장 스파크 스트리밍
10장 GraphX
11장 머신 러닝 학습: 스파크 MLlib와 ML
12장 고급 머신 러닝 모범 사례
13장 나이브 베이즈
14장 스파크 MLlib으로 데이터 클러스터링
15장 스파크 ML을 이용한 텍스트 분석
16장 스파크 튜닝
17장 클러스터에 스파크 배포
18장 스파크 테스팅과 디버깅
19장 PySpark와 SparkR

부록 A Alluxio로 스파크의 처리 성능 높이기
부록 B 아파치 제플린에서 대화형 데이터 분석

찾아보기

New Arrivals Books in Related Fields