HOME > Detail View

Detail View

(시작하세요!) 하둡 프로그래밍 : 빅데이터 분석을 위한 하둡 기초부터 YARN까지 개정증보판 (Loan 28 times)

Material type
단행본
Personal Author
정재화
Title Statement
(시작하세요!) 하둡 프로그래밍 : 빅데이터 분석을 위한 하둡 기초부터 YARN까지 = Beginning Hadoop programming : development and operations / 정재화 지음
판사항
개정증보판
Publication, Distribution, etc
파주 :   위키북스,   2015  
Physical Medium
692 p. : 삽화, 도표 ; 24 cm
Series Statement
위키북스 오픈소스 & 웹 시리즈 ;066
ISBN
9788998139759
General Note
부록: A. 하둡 개발 환경 설정, B. 용어 설명  
Bibliography, Etc. Note
참고문헌(p. 681-689)과 색인수록
000 00000cam c2200205 c 4500
001 000045823407
005 20150212141819
007 ta
008 150212s2015 ggkad b 001c kor
020 ▼a 9788998139759 ▼g 93000
035 ▼a (KERIS)BIB000013657265
040 ▼a 211062 ▼c 211062 ▼d 211009
082 0 4 ▼a 004.36 ▼2 23
085 ▼a 004.36 ▼2 DDCK
090 ▼a 004.36 ▼b 2015
100 1 ▼a 정재화
245 2 0 ▼a (시작하세요!) 하둡 프로그래밍 : ▼b 빅데이터 분석을 위한 하둡 기초부터 YARN까지 = ▼x Beginning Hadoop programming : development and operations / ▼d 정재화 지음
250 ▼a 개정증보판
260 ▼a 파주 : ▼b 위키북스, ▼c 2015
300 ▼a 692 p. : ▼b 삽화, 도표 ; ▼c 24 cm
440 0 0 ▼a 위키북스 오픈소스 & 웹 시리즈 ; ▼v 066
500 ▼a 부록: A. 하둡 개발 환경 설정, B. 용어 설명
504 ▼a 참고문헌(p. 681-689)과 색인수록
945 ▼a KLPA
949 ▼a 위키북스 오픈소스 and 웹 시리즈 ; ▼v 066

No. Location Call Number Accession No. Availability Due Date Make a Reservation Service
No. 1 Location Science & Engineering Library/Sci-Info(Stacks1)/ Call Number 004.36 2015 Accession No. 121232194 Availability Available Due Date Make a Reservation Service B M
No. 2 Location Sejong Academic Information Center/Course Reserves/ Call Number 컴퓨터정보학과 004.36 2015 Accession No. 151324109 Availability Loan can not(reference room) Due Date Make a Reservation Service
No. Location Call Number Accession No. Availability Due Date Make a Reservation Service
No. 1 Location Science & Engineering Library/Sci-Info(Stacks1)/ Call Number 004.36 2015 Accession No. 121232194 Availability Available Due Date Make a Reservation Service B M
No. Location Call Number Accession No. Availability Due Date Make a Reservation Service
No. 1 Location Sejong Academic Information Center/Course Reserves/ Call Number 컴퓨터정보학과 004.36 2015 Accession No. 151324109 Availability Loan can not(reference room) Due Date Make a Reservation Service

Contents information

Book Introduction

하둡으로 대용량 데이터를 처리하려는 자바 개발자를 위한 실무형 입문서. 이 책은 하둡을 처음 시작하거나 이미 하둡을 사용해본 적이 있는 개발자를 대상으로 하며, 하둡의 기본 원리부터 실무 응용까지 초보자의 입장을 배려해서 친절하고 상세하게 설명한다. 이 책은 초판에 비해 HDFS와 맵리듀스에 대한 상세한 설명이 추가됐으며, 맵리듀스 애플리케이션 예제가 모두 업데이트됐다. 그리고 맵리듀스 튜닝과 하둡 클러스터 운영을 위한 노하우도 보강됐다.

하둡으로 대용량 데이터를 처리하려는 자바 개발자를 위한 실무형 입문서!

빅 데이터의 핵심 플랫폼인 하둡은 구글의 논문을 바탕으로 더그 커팅이 개발한 대규모 데이터의 분산 처리를 위한 오픈소스 프레임워크로서, 초기에는 검색 엔진에서 사용하기 위한 기술로 개발됐지만 지금은 전자 상거래, 포털, 게임, 학술 자료, 의료 정보 등 다양한 분야에서 사용되고 있다. 이 책은 하둡을 처음 시작하거나 이미 하둡을 사용해본 적이 있는 개발자를 대상으로 하며, 하둡의 기본 원리부터 실무 응용까지 초보자의 입장을 배려해서 친절하고 상세하게 설명한다.

★ 이 책에서 다루는 내용 ★

ㆍ리눅스, 아마존 웹 서비스(AWS) 환경에서의 하둡 설치
ㆍHDFS와 맵리듀스의 구조 및 활용
ㆍ맵리듀스 튜닝, 하둡 클러스터 운영
ㆍ하둡 스트리밍, 스케줄러 관리, MR유닛
ㆍ하둡2의 구조 및 활용
ㆍYARN의 아키텍처 및 클러스터 운영
ㆍ하둡 에코시스템: 하이브, 스쿱, 타조
ㆍ네이버 및 아프리카TV의 하둡 적용 사례, 타조 기반 코호트 분석

이 책은 하둡의 설치부터 핵심 구성 요소인 HDFS와 맵리듀스의 동작 원리, 그리고 다양한 실용적인 예제를 포함하고 있어 하둡 프로그래밍을 손쉽게 시작할 수 있다. 그리고 하둡 클러스터를 운영하는 데 필수적인 관리 방법과 하둡 스트리밍, 스케줄러와 같은 부가 기능의 활용법 등이 담겨 있다. 또한 2013년 10월에 공식 릴리스된 하둡2의 구조와 하둡2의 핵심 컴포넌트인 YARN의 동작 원리와 적용 방법에 대해서도 상세히 설명한다.

리눅스 서버 구성이 어려운 독자를 위해 아마존 웹 서비스(AWS)에서 하둡을 설치하는 방법까지 소개하고 있으며, 기존 데이터 분석가들도 손쉽게 하둡에 저장된 데이터를 활용할 수 있게 하이브, 스쿱, 타조의 활용법도 다룬다. 마지막으로 하둡을 실제 서비스에 도입하려는 독자에게 통찰력을 주고자 다양한 하둡 적용 사례를 소개한다.

이 책은 초판에 비해 HDFS와 맵리듀스에 대한 상세한 설명이 추가됐으며, 맵리듀스 애플리케이션 예제가 모두 업데이트됐다. 그리고 맵리듀스 튜닝과 하둡 클러스터 운영을 위한 노하우도 보강됐다.


Information Provided By: : Aladin

Author Introduction

정재화(지은이)

지난 10여년 동안 SI, 대용량 분석 인프라, 웹 퍼블리싱 등 다양한 프로젝트를 경험해왔다. 현재 그루터에서 아파치 오픈 소스 프로젝트인 Tajo 개발 및 빅데이터 시스템 구축 업무를 담당하고 있다. 오픈소스 컨트리뷰션을 좋아하며, 개인 블로그(http://blrunner.com)를 통해 빅데이터 플랫폼에 관한 지식들을 공유하고 있다.

Information Provided By: : Aladin

Table of Contents

목차
PART 01 하둡 기초
 01. 하둡 살펴보기 = 20
  1.1 빅데이터의 시대 = 20
  1.2 하둡이란? = 24
  1.3 하둡 에코시스템 = 28
  1.4 하둡에 대한 오해 = 31
  1.5 하둡의 과제 = 32
  1.6 하둡 배포판 = 34
 02. 하둡 개발 준비 = 35
  2.1 실행 모드 결정 = 35
  2.2 리눅스 서버 준비 = 36
  2.3 하둡 다운로드 = 37
  2.4 하둡 실행 계정 생성 = 39
  2.5 호스트 파일 수정 = 40
  2.6 인코딩 방식 설정 = 40
  2.7 자바 설치 = 42
  2.8 SSH 설정 = 44
  2.9 하둡 압축 파일 풀기 = 45
  2.10 하둡 환경설정 파일 수정 = 46
  2.11 하둡 실행 = 53
  2.12 예제 실행 = 56
 03. 하둡 분산 파일 시스템 = 59
  3.1 HDFS 기초 = 59
  3.2 HDFS 아키텍처 = 61
  3.3 HDFS 명령어 = 73
  3.4 클러스터 웹 인터페이스 = 89
  3.5 HDFS 입출력 예제 = 90
 04. 맵리듀스 시작하기 = 94
  4.1 맵리듀스의 개념 = 94
  4.2 맵리듀스 아키텍처 = 96
  4.3 WordCount 만들기 = 111
PART 02 맵리듀스 애플리케이션 개발
 05. 맵리듀스 기초 다지기 = 126
  5.1 맵리듀스 잡의 실행 단계 = 126
  5.2 분석용 데이터 준비 = 132
  5.3 항공 출발 지연 데이터 분석 = 138
  5.4 항공 도착 지연 데이터 분석 = 145
  5.5 사용자 정의 옵션 사용 = 148
  5.6 카운터 사용 = 157
  5.7 다수의 파일 출력 = 162
  5.8 체인 = 170
 06. 정렬 = 172
  6.1 보조 정렬 = 172
  6.2 부분 정렬 = 189
  6.3 전체 정렬 = 201
 07. 조인 = 208
  7.1 조인 데이터 준비 = 208
  7.2 맵 사이드 조인 = 210
  7.3 리듀스 사이드 조인 = 218
PART 03 하둡 운영 및 활용
 08. 맵리듀스 튜닝 = 232
  8.1 셔플 튜닝 = 232
  8.2 콤바이너 클래스 적용 = 236
  8.3 맵 출력 데이터 압축 = 238
  8.4 DFS 블록 크기 수정 = 246
  8.5 JVM 재사용 = 251
  8.6 투기적인 잡 실행 = 251
  8.7 압축 코덱 선택 = 253
 09. 하둡 운영 = 256
  9.1 클러스터 계획 = 256
  9.2 네임노드 HA 구성 = 259
  9.3 파일 시스템 상태 확인 = 262
  9.4 밸런서 = 263
  9.5 HDFS 어드민 명령어 사용 = 264
  9.6 데이터 저장 공간 관리 = 271
  9.7 데이터노드 제거 = 273
  9.8 데이터노드 추가 = 274
  9.9 네임노드 장애 복구 = 276
  9.10 데이터노드 장애 복구 = 281
  9.11 셸 스크립트를 이용한 배포 관리 = 282
 10. 하둡 부가기능 활용 = 286
  10.1 하둡 스트리밍 = 286
  10.2 잡 스케줄러 = 303
  10.3 MR유닛 = 317
 11. 클라우드 환경에서의 하둡 실행 = 324
  11.1 아마존 웹 서비스(AWS) 소개 = 325
  11.2 AWS 가입 = 326
  11.3 EC2 하둡 설정 = 331
  11.4 S3 설정 = 356
  11.5 EMR 사용 = 363
PART 04 하둡2와의 만남
 12. 하둡2 소개 = 374
  12.1 하둡2의 등장 배경 = 374
  12.2 하둡2 특징 = 375
  12.3 얀 = 376
  12.4 네임노드 HA = 381
  12.5 HDFS 페더레이션 = 385
  12.6 HDFS 스냅샷 = 389
  12.7 단락 조회 = 392
 13. 하둡2 설치 = 395
  13.1 프로토콜 버퍼 설치 = 395
  13.2 하둡2 다운로드 = 397
  13.3 가상 분산 모드 설치 = 398
  13.4 네임노드 HA 설치 = 410
  13.5 하둡2 빌드 = 430
 14. 얀 애플리케이션 개발 = 436
  14.1 예제 애플리케이션 소개 = 436
  14.2 클라이언트 구현 = 438
  14.3 애플리케이션마스터 구현 = 451
  14.4 애플리케이션 구현 = 459
  14.5 애플리케이션 실행 = 460
 15. 얀 아키텍처의 이해 = 466
  15.1 얀 작업 흐름 = 466
  15.2 얀 단계별 동작 방식 = 468
  15.3 보조서비스 = 475
  15.4 얀 이벤트 처리 방식 = 477
  15.5 아키텍처 심화 학습 = 481
 16. 얀 클러스터 운영 = 489
  16.1 얀 명령어 = 489
  16.2 포트 설정 = 496
  16.3 맵리듀스 설정 = 497
  16.4 얀 스케줄러 설정 = 504
  16.5 노드매니저 추가 및 제거 = 519
  16.6 리소스매니저 HA 구성 = 519
PART 05 하둡 에코시스템
 17. 하이브 = 528
  17.1 하이브 아키텍처 = 528
  17.2 하이브 설치 = 530
  17.3 하이브QL = 534
  17.4 파티션 테이블 = 552
  17.5 데이터 정렬 = 556
  17.6 데이터 저장 포맷 = 557
 18. 스쿱 = 564
  18.1 스쿱 아키텍처 = 565
  18.2 스쿱 설치 = 571
  18.3 TPC-H 데이터 구성 = 574
  18.4 데이터 임포트 = 579
  18.5 데이터 익스포트 = 585
 19. 타조 = 589
  19.1 SQL-온-하둡이란? = 590
  19.2 SQL-온-하둡 분류 기준 = 590
  19.3 타조란? = 593
  19.4 타조 설치 = 607
  19.5 항공 운항 통계 데이터 분석 = 623
  19.6 파일 포맷 = 631
  19.7 하이브 연동 = 634
PART 06 하둡 적용 사례
 20. 하둡 적용 사례 = 640
  20.1 네이버: 하둡과 몽고디비를 이용한 로그 분석 시스템 = 640
  20.2 아프리카TV의 추천 시스템 구축 사례 = 648
  20.3 타조를 이용한 코호트 분석 = 655
부록
 A 하둡 개발 환경 설정 = 661
  A.1 이클립스 = 661
  A.2 메이븐 = 663
  A.3 Git = 671
 B 용어 설명 = 678
 C 참고문헌 = 681

New Arrivals Books in Related Fields

김자미 (2021)