HOME > 상세정보

상세정보

Spark로 하는 고속 빅데이터 분석과 처리 : 분산 클라우드 환경의 고속 클러스터 컴퓨팅

자료유형
단행본
개인저자
Karau, Holden 조효성, 역
서명 / 저자사항
Spark로 하는 고속 빅데이터 분석과 처리 : 분산 클라우드 환경의 고속 클러스터 컴퓨팅 / 홀든 카로 지음 ; 조효성 옮김
발행사항
의왕 :   에이콘,   2015  
형태사항
139 p. ; 24 cm
총서사항
acorn+PACKT technical book
원표제
Fast data processing with Spark : high-speed distributed computing made easy with Spark
ISBN
9788960776524 9788960772106 (세트)
일반주기
색인수록  
일반주제명
Big data Data mining --Computer programs
000 00000cam c2200205 c 4500
001 000045823466
005 20180731151219
007 ta
008 150212s2015 ggk 001c kor
020 ▼a 9788960776524 ▼g 94000
020 1 ▼a 9788960772106 (세트)
035 ▼a (KERIS)BIB000013653335
040 ▼a 211062 ▼c 211062 ▼d 211009
041 1 ▼a kor ▼h eng
082 0 4 ▼a 006.312 ▼2 23
085 ▼a 006.312 ▼2 DDCK
090 ▼a 006.312 ▼b 2015
100 1 ▼a Karau, Holden
245 1 0 ▼a Spark로 하는 고속 빅데이터 분석과 처리 : ▼b 분산 클라우드 환경의 고속 클러스터 컴퓨팅 / ▼d 홀든 카로 지음 ; ▼e 조효성 옮김
246 1 9 ▼a Fast data processing with Spark : ▼b high-speed distributed computing made easy with Spark
246 3 ▼a 스파크로 하는 고속 빅데이터 분석과 처리
246 3 0 ▼a 고속 빅데이터 분석과 처리
260 ▼a 의왕 : ▼b 에이콘, ▼c 2015
300 ▼a 139 p. ; ▼c 24 cm
440 0 0 ▼a acorn+PACKT technical book
500 ▼a 색인수록
650 0 ▼a Big data
650 0 ▼a Data mining ▼x Computer programs
700 1 ▼a 조효성, ▼e
900 1 0 ▼a 카로, 홀든, ▼e
945 ▼a KLPA

소장정보

No. 소장처 청구기호 등록번호 도서상태 반납예정일 예약 서비스
No. 1 소장처 과학도서관/Sci-Info(1층서고)/ 청구기호 006.312 2015 등록번호 121232147 도서상태 대출가능 반납예정일 예약 서비스 B M

컨텐츠정보

책소개

acorn+PACKT 시리즈. 이 책은 하둡의 처리속도보다 최대 100배 이상 빨라진 고속의 범용 클러스터 컴퓨팅 시스템을 제공하는 아파치 스파크(Spark)의 입문서이다. 스파크 시스템을 이용하면 SQL과 같은 데이터를 처리하는 툴 사용, 구조화된 데이터 처리, 머신 러닝, 그래프 데이터 프로세싱을 할 수 있다.

웹 개발자에게 익숙한 자바, 스칼라, 파이썬을 이용해서 로컬 환경뿐 아니라 클러스터 환경에서 고속의 데이터 분석을 할 수 있으므로 빅데이터를 학습하는 학생부터 현장에서 근무하는 엔지니어까지 좋은 지침서로 활용할 수 있다.

이 책은 스파크를 이용해서 분산 프로그램을 개발하는 방법을 배우고자 하는 소프트웨어 개발자를 위한 것이다. 과거에 분산 프로그래밍을 해본 경험이 꼭 필요한 것은 아니다. 단, 이 책은 개발자가 자바, 스칼라, 파이썬에 관한 배경지식이 있다고 가정한다.

★ 요약 ★

이 책은 하둡의 처리속도보다 최대 100배 이상 빨라진 고속의 범용 클러스터 컴퓨팅 시스템을 제공하는 아파치 스파크(Spark)의 입문서이다. 스파크 시스템을 이용하면 SQL과 같은 데이터를 처리하는 툴 사용, 구조화된 데이터 처리, 머신 러닝, 그래프 데이터 프로세싱을 할 수 있다. 웹 개발자에게 익숙한 자바, 스칼라, 파이썬을 이용해서 로컬 환경뿐 아니라 클러스터 환경에서 고속의 데이터 분석을 할 수 있으므로 빅데이터를 학습하는 학생부터 현장에서 근무하는 엔지니어까지 좋은 지침서로 활용할 수 있다.

★ 이 책에서 다루는 내용 ★

■ 스파크의 인터랙티브 셸을 이용한 분산 애플리케이션의 프로토타이핑 방법
■ 스파크의 분산 대표 데이터(RDD)를 이용해서 통신할 수 있는 다양한 방법
■ 다양한 데이터 소스에서 데이터를 로드하는 방법
■ SQL과 같은 쿼리 문법을 이용해서 스파크에게 쿼리하는 방법
■ 분산 소프트웨어를 효과적으로 테스트하는 방법
■ 스파크 설치를 튜닝하는 방법
■ 클러스터에 스파크를 설치하고 환경 설정하는 방법
■ 대규모의 데이터를 효과적으로 처리하는 방법

★ 이 책의 대상 독자 ★

이 책은 스파크를 이용해서 분산 프로그램을 개발하는 방법을 배우고자 하는 소프트웨어 개발자를 위한 것이다. 과거에 분산 프로그래밍을 해본 경험이 꼭 필요한 것은 아니다. 단, 이 책은 개발자가 자바, 스칼라, 파이썬에 관한 배경지식이 있다고 가정한다.

★ 이 책의 구성 ★

1장, '스파크 설치와 클러스터 설정' 다양한 머신에서 스파크를 설치하는 방법과 클러스터 설정 방법을 다룬다. 개발 환경에 적합한 로컬 단일 노드 배포부터 EC2 클러스터에 대한 셰프(Chef)가 관리하는 대규모 클러스터까지 모두 아울러 설명한다.

2장, '스파크 셸 사용' 상호작용 모드에서 첫 번째로 스파크 잡을 동작시킨다. 스파크 셸은 빠르고 유용한 디버깅 도구로서, 특히 스파크를 처음 접할 때 상당히 편리하다.

3장, '스파크 앱 개발과 실행' 스파크 클러스터 환경에서 프로덕션 목적에 적합한 독립적인 잡의 구성 방법을 설명한다. 스파크 셸이 빠른 프로토타입 구성에 적합한 도구일지라도 독립적인 잡의 구성이 스파크와 상호작용하는 방법의 대부분이 될 것이다.

4장, '스파크컨텍스트 생성' 스파크 클러스터와 연결하는 방법을 설명한다. 스파크컨텍스트(SparkContext)는 프로그램을 위한 스파크 클러스터의 시작점이다.

5장, '스파크에 데이터 로딩과 저장' RDD(Resilient Distributed DataSet)의 생성과 저장 방법을 설명한다. 스파크는 하둡 데이터 소스에서 RDD 로딩을 지원한다.

6장, 'RDD 조작' 스파크를 이용해 데이터를 분산환경에서 사용하는 방법을 설명한다. 흥미로운 내용이 가득한 단원이다.

7장, '샤크-하이브와 스파크의 연동' 스파크가 설치된 HiveQL과 호환성이 있는 시스템인 샤크(Shark)의 설치방법과 스파크 잡을 하이브(Hive) 쿼리에 결합하는 방법을 설명한다.

8장, '테스팅' 스파크 잡의 테스트 방법을 다룬다. 분산 태스크의 디버깅은 상당히 까다롭기 때문에 테스팅 과정은 매우 중요하다.

9장, '팁과 요령' 스파크 태스크의 성능 향상 방법을 살펴본다.

★ 저자 서문 ★

이 책은 스파크를 이용해 분산 맵리듀스(MapReduce) 스타일의 프로그램을 작성하는 방법에 대해 설명한다. 이 책은 클러스터에 잡(job)을 할당하고, 용도에 맞게 튜닝하기 위해 분산 프로그램을 효과적으로 작성하는 방법과 스파크 API 내용을 설명한다.
이 책은 다양한 환경(독립적인 하나의 머신, EC2 등)에서 스파크 클러스터를 설정하는 방법과 통신 가능한 분산 코드를 작성하기 위해 인터랙티브 셸(interactive shell)의 사용 방법을 설명한다. 인터랙티브 셸을 사용할 수 있다면, 자바, 스칼라, 파이썬을 이용해서 분산 잡을 구현하고 할당할 수 있는 방법까지 학습할 수 있다.
다음으로 인터랙티브 셸을 사용해서 빠르게 분산 프로그램의 프로토타이핑하는 방법을 살펴보고, 스파크 API를 배운다. 샤크(Shark)를 이용한 SQL과 같은 쿼리 문법을 사용하기 위해 스파크를 하이브(Hive)와 함께 사용할 수 있는 방법도 살펴보면서 RDD(Resilient Distributed Dataset)를 수정해 본다.


정보제공 : Aladin

저자소개

홀든 카로(지은이)

트랜스젠더 캐나다인이면서 IBM 스파크 기술 센터의 소프트웨어 개발 엔지니어다. 그녀는 스파크 커미터이면서 파이 스파크와 머신러닝에 많은 기여를 하고 있다. 또한, 다양한 국제 콘퍼런스에서 스파크 발표자로 활동하고 있다.

조효성(옮긴이)

광운대학교 전자공학과를 졸업하고 동대학원 임베디드 소프트웨어 공학과에서 안드로이드와 블루투스를 전공했다. 과거 오비고에서 웹 개발자로 활동하고 있는 노드에 관심이 많은 행복 개발자다. 행복한 HMI WebApp 개발 팀에서 차량용 플랫폼에 올라가는 웹 앱을 개발하면서 많은 경험과 실력을 쌓았다. 현재 브라이니클에 근무하면서 서버와 클라이언트를 개발하며, 빅데이터 분석에 관심이 많고, 실제 데이터 분석 사례를 만들고 있다. 번역 작업을 통해 책을 읽는 모든 사람에게 꼭 도움이 되기를 바라는 마음을 늘 품고 있다. 에이콘출판사에서 출간한 『노드로 하는 웹 앱 테스트 자동화』(2013), 『익스프레스 프레임워크로 하는 노드 웹 앱 프로그래밍』(2014), 『Storm 실시간 빅데이터 분석 플랫폼』(2014), 『안드로이드 음성 인식 애플리케이션 개발』(2014), 『Spark로 하는 고속 빅데이터 분석과 처리』(2014), 『AngularJS 반응형 웹앱 개발과 성능 최적화』(2015), 『리액트 정복하기』(2016)를 번역했다.

정보제공 : Aladin

목차

1장 스파크 설치와 클러스터 설정 
__싱글 머신에서 스파크 구동 
__EC2 환경에서 스파크 구동 
____EC2 환경에서 스크립트를 이용한 스파크 구동 
__탄력적 맵리듀스에서 스파크 사용 
__Chef를 연동한 스파크 배치(opscode) 
__Mesos에서 스파크 사용 
__YARN에서 구동하는 스파크 사용 
__SSH를 통한 머신 집합 사용 
__링크와 레퍼런스 
__요약 

2장 스파크 셸 사용 
__텍스트 파일 로딩 
__로지스틱 회귀 분석을 위한 스파크 셸 사용 
__S3 데이터의 양단간 로딩 
__요약

3장 스파크 앱 개발과 실행 
__sbt를 이용한 스파크 프로젝트 생성 
__메이븐을 이용한 스파크 잡 빌드 
__기타 다른 빌드 시스템을 이용한 스파크 잡 빌드 
__요약 

4장 스파크컨텍스트 생성 
__스칼라 
__자바 
__공유 자바와 스칼라 API 
__파이썬 
__링크와 참조 
__요약 

5장 스파크에 데이터 로딩과 저장 
__RDDs 
__RDD에 데이터를 로딩 
__데이터 저장 
__링크와 참조 
__요약 

6장 RDD 조작 
__스칼라와 자바를 이용한 RDD 조작 
____스칼라 RDD 메소드 
____PairRDD 메소드를 결합하는 메소드 
____그밖의 PairRDD 메소드 
____DoubleRDD 메소드 
____일반 RDD 메소드 
____자바 RDD 메소드 
____스파크 자바 메소드 클래스 
______공통 자바 RDD 메소드 
____JavaPairRDD 메소드를 조합하는 메소드 
______JavaPairRDD 메소드 
__파이썬을 이용한 RDD 수정
____표준 RDD 함수 
____PairRDD 메소드 
__링크와 참조 
__요약 

7장 샤크-하이브와 스파크의 연동 
__하이브/샤크 사용 이유 
__샤크 설치 
__샤크 구동 
__데이터 로딩 
__스파크 프로그램에서 하이브 쿼리 사용 
__링크와 참조 
__요약 

8장 테스팅 
__자바와 스칼라로 테스트하기 
____테스트 가능성을 위한 코드 리팩토링 
____스파크컨텍스트의 인터렉션 테스팅 
__파이썬을 이용한 테스팅 
__링크와 참조 
__요약 

9장 팁과 요령 
__로그 저장 위치
__동시 실행 제약사항 
__메모리 사용과 가비지 콜렉션 
__직렬화 
__IDE 통합 
__다른 언어로 스파크 사용 
__보안에 대한 간단한 노트
__메일링 리스트 
__링크와 참조 
__요약

관련분야 신착자료

Stevens, Eli (2020)