000 | 00000cam c2200205 c 4500 | |
001 | 000045823466 | |
005 | 20180731151219 | |
007 | ta | |
008 | 150212s2015 ggk 001c kor | |
020 | ▼a 9788960776524 ▼g 94000 | |
020 | 1 | ▼a 9788960772106 (세트) |
035 | ▼a (KERIS)BIB000013653335 | |
040 | ▼a 211062 ▼c 211062 ▼d 211009 | |
041 | 1 | ▼a kor ▼h eng |
082 | 0 4 | ▼a 006.312 ▼2 23 |
085 | ▼a 006.312 ▼2 DDCK | |
090 | ▼a 006.312 ▼b 2015 | |
100 | 1 | ▼a Karau, Holden |
245 | 1 0 | ▼a Spark로 하는 고속 빅데이터 분석과 처리 : ▼b 분산 클라우드 환경의 고속 클러스터 컴퓨팅 / ▼d 홀든 카로 지음 ; ▼e 조효성 옮김 |
246 | 1 9 | ▼a Fast data processing with Spark : ▼b high-speed distributed computing made easy with Spark |
246 | 3 | ▼a 스파크로 하는 고속 빅데이터 분석과 처리 |
246 | 3 0 | ▼a 고속 빅데이터 분석과 처리 |
260 | ▼a 의왕 : ▼b 에이콘, ▼c 2015 | |
300 | ▼a 139 p. ; ▼c 24 cm | |
440 | 0 0 | ▼a acorn+PACKT technical book |
500 | ▼a 색인수록 | |
650 | 0 | ▼a Big data |
650 | 0 | ▼a Data mining ▼x Computer programs |
700 | 1 | ▼a 조효성, ▼e 역 |
900 | 1 0 | ▼a 카로, 홀든, ▼e 저 |
945 | ▼a KLPA |
소장정보
No. | 소장처 | 청구기호 | 등록번호 | 도서상태 | 반납예정일 | 예약 | 서비스 |
---|---|---|---|---|---|---|---|
No. 1 | 소장처 과학도서관/Sci-Info(1층서고)/ | 청구기호 006.312 2015 | 등록번호 121232147 | 도서상태 대출가능 | 반납예정일 | 예약 | 서비스 |
컨텐츠정보
책소개
acorn+PACKT 시리즈. 이 책은 하둡의 처리속도보다 최대 100배 이상 빨라진 고속의 범용 클러스터 컴퓨팅 시스템을 제공하는 아파치 스파크(Spark)의 입문서이다. 스파크 시스템을 이용하면 SQL과 같은 데이터를 처리하는 툴 사용, 구조화된 데이터 처리, 머신 러닝, 그래프 데이터 프로세싱을 할 수 있다.
웹 개발자에게 익숙한 자바, 스칼라, 파이썬을 이용해서 로컬 환경뿐 아니라 클러스터 환경에서 고속의 데이터 분석을 할 수 있으므로 빅데이터를 학습하는 학생부터 현장에서 근무하는 엔지니어까지 좋은 지침서로 활용할 수 있다.
이 책은 스파크를 이용해서 분산 프로그램을 개발하는 방법을 배우고자 하는 소프트웨어 개발자를 위한 것이다. 과거에 분산 프로그래밍을 해본 경험이 꼭 필요한 것은 아니다. 단, 이 책은 개발자가 자바, 스칼라, 파이썬에 관한 배경지식이 있다고 가정한다.
★ 요약 ★
이 책은 하둡의 처리속도보다 최대 100배 이상 빨라진 고속의 범용 클러스터 컴퓨팅 시스템을 제공하는 아파치 스파크(Spark)의 입문서이다. 스파크 시스템을 이용하면 SQL과 같은 데이터를 처리하는 툴 사용, 구조화된 데이터 처리, 머신 러닝, 그래프 데이터 프로세싱을 할 수 있다. 웹 개발자에게 익숙한 자바, 스칼라, 파이썬을 이용해서 로컬 환경뿐 아니라 클러스터 환경에서 고속의 데이터 분석을 할 수 있으므로 빅데이터를 학습하는 학생부터 현장에서 근무하는 엔지니어까지 좋은 지침서로 활용할 수 있다.
★ 이 책에서 다루는 내용 ★
■ 스파크의 인터랙티브 셸을 이용한 분산 애플리케이션의 프로토타이핑 방법
■ 스파크의 분산 대표 데이터(RDD)를 이용해서 통신할 수 있는 다양한 방법
■ 다양한 데이터 소스에서 데이터를 로드하는 방법
■ SQL과 같은 쿼리 문법을 이용해서 스파크에게 쿼리하는 방법
■ 분산 소프트웨어를 효과적으로 테스트하는 방법
■ 스파크 설치를 튜닝하는 방법
■ 클러스터에 스파크를 설치하고 환경 설정하는 방법
■ 대규모의 데이터를 효과적으로 처리하는 방법
★ 이 책의 대상 독자 ★
이 책은 스파크를 이용해서 분산 프로그램을 개발하는 방법을 배우고자 하는 소프트웨어 개발자를 위한 것이다. 과거에 분산 프로그래밍을 해본 경험이 꼭 필요한 것은 아니다. 단, 이 책은 개발자가 자바, 스칼라, 파이썬에 관한 배경지식이 있다고 가정한다.
★ 이 책의 구성 ★
1장, '스파크 설치와 클러스터 설정' 다양한 머신에서 스파크를 설치하는 방법과 클러스터 설정 방법을 다룬다. 개발 환경에 적합한 로컬 단일 노드 배포부터 EC2 클러스터에 대한 셰프(Chef)가 관리하는 대규모 클러스터까지 모두 아울러 설명한다.
2장, '스파크 셸 사용' 상호작용 모드에서 첫 번째로 스파크 잡을 동작시킨다. 스파크 셸은 빠르고 유용한 디버깅 도구로서, 특히 스파크를 처음 접할 때 상당히 편리하다.
3장, '스파크 앱 개발과 실행' 스파크 클러스터 환경에서 프로덕션 목적에 적합한 독립적인 잡의 구성 방법을 설명한다. 스파크 셸이 빠른 프로토타입 구성에 적합한 도구일지라도 독립적인 잡의 구성이 스파크와 상호작용하는 방법의 대부분이 될 것이다.
4장, '스파크컨텍스트 생성' 스파크 클러스터와 연결하는 방법을 설명한다. 스파크컨텍스트(SparkContext)는 프로그램을 위한 스파크 클러스터의 시작점이다.
5장, '스파크에 데이터 로딩과 저장' RDD(Resilient Distributed DataSet)의 생성과 저장 방법을 설명한다. 스파크는 하둡 데이터 소스에서 RDD 로딩을 지원한다.
6장, 'RDD 조작' 스파크를 이용해 데이터를 분산환경에서 사용하는 방법을 설명한다. 흥미로운 내용이 가득한 단원이다.
7장, '샤크-하이브와 스파크의 연동' 스파크가 설치된 HiveQL과 호환성이 있는 시스템인 샤크(Shark)의 설치방법과 스파크 잡을 하이브(Hive) 쿼리에 결합하는 방법을 설명한다.
8장, '테스팅' 스파크 잡의 테스트 방법을 다룬다. 분산 태스크의 디버깅은 상당히 까다롭기 때문에 테스팅 과정은 매우 중요하다.
9장, '팁과 요령' 스파크 태스크의 성능 향상 방법을 살펴본다.
★ 저자 서문 ★
이 책은 스파크를 이용해 분산 맵리듀스(MapReduce) 스타일의 프로그램을 작성하는 방법에 대해 설명한다. 이 책은 클러스터에 잡(job)을 할당하고, 용도에 맞게 튜닝하기 위해 분산 프로그램을 효과적으로 작성하는 방법과 스파크 API 내용을 설명한다.
이 책은 다양한 환경(독립적인 하나의 머신, EC2 등)에서 스파크 클러스터를 설정하는 방법과 통신 가능한 분산 코드를 작성하기 위해 인터랙티브 셸(interactive shell)의 사용 방법을 설명한다. 인터랙티브 셸을 사용할 수 있다면, 자바, 스칼라, 파이썬을 이용해서 분산 잡을 구현하고 할당할 수 있는 방법까지 학습할 수 있다.
다음으로 인터랙티브 셸을 사용해서 빠르게 분산 프로그램의 프로토타이핑하는 방법을 살펴보고, 스파크 API를 배운다. 샤크(Shark)를 이용한 SQL과 같은 쿼리 문법을 사용하기 위해 스파크를 하이브(Hive)와 함께 사용할 수 있는 방법도 살펴보면서 RDD(Resilient Distributed Dataset)를 수정해 본다.
정보제공 :

저자소개
홀든 카로(지은이)
트랜스젠더 캐나다인이면서 IBM 스파크 기술 센터의 소프트웨어 개발 엔지니어다. 그녀는 스파크 커미터이면서 파이 스파크와 머신러닝에 많은 기여를 하고 있다. 또한, 다양한 국제 콘퍼런스에서 스파크 발표자로 활동하고 있다.
조효성(옮긴이)
광운대학교 전자공학과를 졸업하고 동대학원 임베디드 소프트웨어 공학과에서 안드로이드와 블루투스를 전공했다. 과거 오비고에서 웹 개발자로 활동하고 있는 노드에 관심이 많은 행복 개발자다. 행복한 HMI WebApp 개발 팀에서 차량용 플랫폼에 올라가는 웹 앱을 개발하면서 많은 경험과 실력을 쌓았다. 현재 브라이니클에 근무하면서 서버와 클라이언트를 개발하며, 빅데이터 분석에 관심이 많고, 실제 데이터 분석 사례를 만들고 있다. 번역 작업을 통해 책을 읽는 모든 사람에게 꼭 도움이 되기를 바라는 마음을 늘 품고 있다. 에이콘출판사에서 출간한 『노드로 하는 웹 앱 테스트 자동화』(2013), 『익스프레스 프레임워크로 하는 노드 웹 앱 프로그래밍』(2014), 『Storm 실시간 빅데이터 분석 플랫폼』(2014), 『안드로이드 음성 인식 애플리케이션 개발』(2014), 『Spark로 하는 고속 빅데이터 분석과 처리』(2014), 『AngularJS 반응형 웹앱 개발과 성능 최적화』(2015), 『리액트 정복하기』(2016)를 번역했다.

목차
1장 스파크 설치와 클러스터 설정 __싱글 머신에서 스파크 구동 __EC2 환경에서 스파크 구동 ____EC2 환경에서 스크립트를 이용한 스파크 구동 __탄력적 맵리듀스에서 스파크 사용 __Chef를 연동한 스파크 배치(opscode) __Mesos에서 스파크 사용 __YARN에서 구동하는 스파크 사용 __SSH를 통한 머신 집합 사용 __링크와 레퍼런스 __요약 2장 스파크 셸 사용 __텍스트 파일 로딩 __로지스틱 회귀 분석을 위한 스파크 셸 사용 __S3 데이터의 양단간 로딩 __요약 3장 스파크 앱 개발과 실행 __sbt를 이용한 스파크 프로젝트 생성 __메이븐을 이용한 스파크 잡 빌드 __기타 다른 빌드 시스템을 이용한 스파크 잡 빌드 __요약 4장 스파크컨텍스트 생성 __스칼라 __자바 __공유 자바와 스칼라 API __파이썬 __링크와 참조 __요약 5장 스파크에 데이터 로딩과 저장 __RDDs __RDD에 데이터를 로딩 __데이터 저장 __링크와 참조 __요약 6장 RDD 조작 __스칼라와 자바를 이용한 RDD 조작 ____스칼라 RDD 메소드 ____PairRDD 메소드를 결합하는 메소드 ____그밖의 PairRDD 메소드 ____DoubleRDD 메소드 ____일반 RDD 메소드 ____자바 RDD 메소드 ____스파크 자바 메소드 클래스 ______공통 자바 RDD 메소드 ____JavaPairRDD 메소드를 조합하는 메소드 ______JavaPairRDD 메소드 __파이썬을 이용한 RDD 수정 ____표준 RDD 함수 ____PairRDD 메소드 __링크와 참조 __요약 7장 샤크-하이브와 스파크의 연동 __하이브/샤크 사용 이유 __샤크 설치 __샤크 구동 __데이터 로딩 __스파크 프로그램에서 하이브 쿼리 사용 __링크와 참조 __요약 8장 테스팅 __자바와 스칼라로 테스트하기 ____테스트 가능성을 위한 코드 리팩토링 ____스파크컨텍스트의 인터렉션 테스팅 __파이썬을 이용한 테스팅 __링크와 참조 __요약 9장 팁과 요령 __로그 저장 위치 __동시 실행 제약사항 __메모리 사용과 가비지 콜렉션 __직렬화 __IDE 통합 __다른 언어로 스파크 사용 __보안에 대한 간단한 노트 __메일링 리스트 __링크와 참조 __요약