HOME > 상세정보

상세정보

(시작하세요!) 하둡 프로그래밍 : 기초부터 실무까지 하둡의 모든것 (52회 대출)

자료유형
단행본
개인저자
정재화
서명 / 저자사항
(시작하세요!) 하둡 프로그래밍 = Beginning Hadoop programming development and operations : 기초부터 실무까지 하둡의 모든것 / 정재화 지음
발행사항
파주 :   위키북스,   2012   (2013)  
형태사항
xxvi, 462 p. : 삽화 ; 24 cm
총서사항
위키북스 오픈소스 & 웹 시리즈 ;042
ISBN
9788998139049
일반주기
부록: 1. 윈도우 환경에서 설치하기, 2. 하둡 2.0 소개  
서지주기
참고문헌과 색인수록
000 00852camcc2200241 c 4500
001 000045729925
005 20140122120307
007 ta
008 121030s2012 ggka b 001c kor
020 ▼a 9788998139049 ▼g 93000
035 ▼a (KERIS)BIB000012952928
040 ▼a 241050 ▼c 241050 ▼d 244002 ▼d 211009
082 0 4 ▼a 004.36 ▼2 23
085 ▼a 004.36 ▼2 DDCK
090 ▼a 004.36 ▼b 2012z2
100 1 ▼a 정재화
245 2 0 ▼a (시작하세요!) 하둡 프로그래밍 = ▼x Beginning Hadoop programming development and operations : ▼b 기초부터 실무까지 하둡의 모든것 / ▼d 정재화 지음
260 ▼a 파주 : ▼b 위키북스, ▼c 2012 ▼g (2013)
300 ▼a xxvi, 462 p. : ▼b 삽화 ; ▼c 24 cm
440 0 0 ▼a 위키북스 오픈소스 & 웹 시리즈 ; ▼v 042
500 ▼a 부록: 1. 윈도우 환경에서 설치하기, 2. 하둡 2.0 소개
504 ▼a 참고문헌과 색인수록

No. 소장처 청구기호 등록번호 도서상태 반납예정일 예약 서비스
No. 1 소장처 과학도서관/Sci-Info(1층서고)/ 청구기호 004.36 2012z2 등록번호 121222675 도서상태 대출가능 반납예정일 예약 서비스 B M
No. 2 소장처 과학도서관/Sci-Info(1층서고)/ 청구기호 004.36 2012z2 등록번호 121227667 도서상태 대출가능 반납예정일 예약 서비스 B M
No. 3 소장처 세종학술정보원/과학기술실/ 청구기호 004.36 2012z2 등록번호 151313707 도서상태 대출가능 반납예정일 예약 서비스
No. 소장처 청구기호 등록번호 도서상태 반납예정일 예약 서비스
No. 1 소장처 과학도서관/Sci-Info(1층서고)/ 청구기호 004.36 2012z2 등록번호 121222675 도서상태 대출가능 반납예정일 예약 서비스 B M
No. 2 소장처 과학도서관/Sci-Info(1층서고)/ 청구기호 004.36 2012z2 등록번호 121227667 도서상태 대출가능 반납예정일 예약 서비스 B M
No. 소장처 청구기호 등록번호 도서상태 반납예정일 예약 서비스
No. 1 소장처 세종학술정보원/과학기술실/ 청구기호 004.36 2012z2 등록번호 151313707 도서상태 대출가능 반납예정일 예약 서비스

컨텐츠정보

책소개

하둡의 설치부터 핵심 구성 요소인 HDFS와 맵리듀스(MapReduce)의 동작 원리, 그리고 다양한 실용적인 예제를 포함하고 있어 하둡 프로그래밍을 손쉽게 시작할 수 있다. 또한 하둡 클러스터를 운영하는 데 필수적인 관리 방법과 하둡 스트리밍(Streaming), 스케줄러와 같은 부가 기능의 활용법 등이 담겨 있다.

리눅스 서버 구성이 어려운 독자들을 위해 아마존 웹 서비스(AWS)와 윈도우에서 하둡을 설치하는 방법까지 소개하고 있으며, 기존 데이터 분석가들도 손쉽게 하둡으로 데이터를 처리할 수 있도록 하이브(Hive) 활용법도 담고 있다. 마지막으로 하둡을 실제 서비스 도입하려는 독자에게 통찰력을 주고자 NHN, 넥스알, 그루터의 하둡 적용 사례를 소개한다.

2013 대한민국학술원 우수학술도서 선정!
하둡으로 대용량 데이터를 처리하려는 자바 개발자들을 위한 실무형 입문서!


올해 IT분야의 화두로 빅 데이터가 부상하면서, 빅 데이터 처리를 위한 핵심 기술로 하둡이 주목받고 있다. 하둡은 구글의 논문을 바탕으로 더그 커팅이 개발한 대규모 데이터의 분산 처리를 위한 오픈소스 프레임워크로서, 초기에는 검색 엔진에서 사용하기 위한 기술로 개발됐지만, 지금은 전자 상거래, 포털, 게임, 학술 자료, 의료 정보 등 다양한 분야에서 사용되고 있다. 이 책은 하둡을 처음 시작하거나 이미 하둡을 사용해본 적이 있는 개발자를 대상으로 하며, 하둡의 기본 원리부터 실무 응용까지 초보자의 입장을 배려해서 친절하고 상세하게 설명한다.

★ 이 책에서 다루는 내용 ★

■ 리눅스, 윈도우, 아마존 웹 서비스(AWS) 환경에서의 하둡 설치
■ HDFS와 맵리듀스의 구조 및 활용
■ 맵리듀스 튜닝, 하둡 클러스터 운영
■ 하둡 스트리밍, 스케줄러 관리
■ 하둡 에코 시스템 하이브(HIVE) 활용
■ 국내 하둡 적용 사례 및 하둡 2.0 소개

.

[추천사]

"빅데이터를 고민하는 많은 개발자와 회사에서 이 책을 통해 더욱 많은 도움을 받을 수 있기를 기대해봅니다."
- 권영길(그루터 대표이사)

"빅데이터와 하둡에 관심은 있지만 어떻게 시작해야 할지 고민하셨던 개발자라면 더욱 이 책을 추천합니다."
- 김우승(줌인터넷㈜ 연구소장)

"그동안 하둡을 사용하는 데 어려움을 겪었던 분들이나 도입을 검토하는 분들에게 무척 반가운 소식이 될 것입니다."
- 심탁길 (SK C&C 클라우드 컴퓨팅 기술팀 부장, 솔루션 개발 총괄)

"이 책을 통해 많은 분들이 빅데이터는 어렵고 복잡하다는 오해를 떨쳐내고, 여러 상황에서 유의미한 결과를 분석해 내시길 기원합니다."
- 이경준(NHN 데이터정보센터 BI실 실장)

"제대로 된 입문서로 배우는 것이 불필요한 시간 낭비를 줄이고 다음 단계로 빠르게 넘어가는 지름길이 될 수 있다는 점에서 이 책을 적극 추천합니다."
- 조동환(Liaison Architect between Business and Technology / 전)쿠팡 데이터연구소 소장)

"이 책에는 하둡의 구성과 동작 원리도 잘 설명돼 있어서 개발 인생에 영감을 주고 활용할 수 있을 것 같습니다. 막연한 불안에 떨고 있는 분이라면 한번 시작해 보시길 권해드립니다."
- 조현종(오픈소스 올챙이(Tadpole for DB Tools) 개발자)

"마지막 장에서 소개한 국내의 하둡 적용 사례는 실제 운영 환경에서 하둡이 어떻게 활용되고, 구조를 어떻게 잡아야 할지 안내해 줄 것이다."
- 한재선(KT Cloudware CTO 겸 NexR 대표이사)

"데이터 세상의 하둡으로 첫 나들이를 나서는 자바 개발자를 위한 책이다."
- 황순현(엔씨소프트 전무, 웹모바일센터 센터장)


정보제공 : Aladin

저자소개

정재화(지은이)

지난 10여년 동안 SI, 대용량 분석 인프라, 웹 퍼블리싱 등 다양한 프로젝트를 경험해왔다. 현재 그루터에서 아파치 오픈 소스 프로젝트인 Tajo 개발 및 빅데이터 시스템 구축 업무를 담당하고 있다. 오픈소스 컨트리뷰션을 좋아하며, 개인 블로그(http://blrunner.com)를 통해 빅데이터 플랫폼에 관한 지식들을 공유하고 있다.

정보제공 : Aladin

목차

목차 
01 하둡 소개 = 1 
 1.1 빅 데이터의 시대 = 2
  1.1.1. 빅 데이터의 개념 = 2
  1.1.2. 빅 데이터의 출현 배경 = 5
 1.2 하둡이란? = 6
  1.2.1. 왜 하둡인가? = 7
  1.2.2. 하둡이 지나온 길 = 8
 1.3 하둡 에코 시스템 = 10
 1.4 하둡에 대한 오해 = 13
 1.5 하둡의 과제 = 15
 1.6 하둡 배포판 살펴보기 = 16
02 하둡 개발 준비 = 19
 2.1 실행 모드 결정 = 20
 2.2 리눅스 서버 준비 = 20
 2.3 하둡 다운로드 = 21
 2.4 하둡 실행 계정 생성 = 23
 2.5 호스트 파일 수정하기 = 24
 2.6 인코딩 방식 설정 = 25
 2.7 자바 설치 = 26 
 2.8 SSH 설정 = 29
 2.9 하둡 압축 파일 해제하기 = 31
 2.10 하둡 환경설정 파일 수정 = 33
  2.10.1. hadoop-env 수정 = 33
  2.10.2. maters 수정 = 36
  2.10.3. slaves 수정 = 36
  2.10.4. core-site.xml 수정 = 36
  2.10.5. hdfs-site.xml 수정 = 37
  2.10.6. mapred-site.xml 수정 = 38
 2.11 하둡 실행 = 39
 2.12 예제 실행하기 = 42
 2.13 이클립스 설정 = 44
 2.14 프로젝트 빌드하기 = 46
03 하둡 분산 파일 시스템 = 51
 3.1 HDFS 기초 = 52
 3.2 HDFS 아키텍처 = 54
  3.2.1. 블록 구조 파일 시스템 = 54
  3.2.2. 네임노드 와 데이터노드 = 55
  3.2.3. 파일 저장 = 57
  3.2.4. 파일 읽기 = 58
  3.2.5. 보조 네임노드 = 59
 3.3 HDFS 명령어 사용하기 = 62
  3.3.1. 파일 목록 보기 - ls, lsr = 62
  3.3.2. 파일 용량 확인 - du, dus = 64
  3.3.3. 파일 내용 보기 - cat, text = 65
  3.3.4. 디렉터리 생성 - mkdir = 66
  3.3.5. 파일 복사 ◆U2013◆ put, get, getmerge, cp, copyFromLocal, copyToLocal = 67
  3.3.6. 파일 이동 - mv, moveFromLocal = 72
  3.3.7. 파일 삭제하기 - rm = 73
  3.3.8. 디렉터리 삭제 - rmr = 73
  3.3.9. 카운트값 조회 - count = 74
  3.3.10. 파일의 마지막 내용 확인 - tail = 74
  3.3.10. 권한 변경 - chmod, chown, chgrp = 75
  3.3.12. 0바이트 파일 생성 - touchz = 77
  3.3.13. 통계 정보 조회 ◆U2013◆ stat = 77
  3.3.14. 복제 데이터 개수 변경 - setrep = 78
  3.3.15. 휴지통 비우기 - expunge = 79
  3.3.16. 파일 형식 확인 - test = 79 
 3.4 클러스터 웹 인터페이스 = 79 
 3.5 HDFS 입출력 예제 = 81
04 맵리듀스 시작하기 = 85
 4.1 맵리듀스 개념 = 86
 4.2 맵리듀스 아키텍처 = 88
  4.2.1. 시스템 구성 = 88
  4.2.2. 맵리듀스 작동 방식= 89
  4.2.3. 하둡 프로그래밍의 요소 = 92
 4.3 WordCount 만들기 = 101
  4.3.1. 매퍼 구현 = 101 
  4.3.2. 리듀서 구현 = 103
  4.3.3. 드라이버 클래스 구현 = 105
  4.3.4. WordCount 빌드 = 108
  4.3.5. WordCount 실행 = 108
  4.3.6. 웹에서 실행 결과 확인 = 111
05 맵리듀스 기초 다지기 = 115
 5.1 분석용 데이터 준비 = 116
 5.2 항공 출발 지연 데이터 분석 = 119
  5.2.1. 매퍼 구현 = 119
  5.2.2. 리듀서 구현 = 121
  5.2.3. 드라이버 클래스 구현 = 122
  5.2.4. 드라이버 클래스 실행 = 124
 5.3 항공 도착 지연 데이터 분석 = 126
  5.3.1. 매퍼 구현 = 127
  5.3.2. 리듀서 구현 = 128
  5.3.3. 드라이버 클래스 구현 = 128
  5.3.4. 드라이버 클래스 실행 = 129
 5.4 사용자 정의 옵션 사용 = 131
  5.4.1. 사용자 정의 옵션의 이해 = 132
  5.4.2. 매퍼 구현 = 135
  5.4.3. 드라이버 클래스 구현 = 138
  5.4.4. 드라이버 클래스 실행 = 140
 5.5 카운터 사용 = 141
  5.5.1. 사용자 정의 카운터 구현 = 142
  5.5.2. 매퍼 구현 = 142
  5.5.3. 드라이버 클래스 구현 =145
  5.5.4. 드라이버 클래스 실행 = 146
 5.6 다수의 파일 출력 = 147
  5.6.1. MultipleOutputs 이해 = 148
  5.6.2. 매퍼 구현 = 148
  5.6.3. 리듀서 구현 = 150
  5.6.4. 드라이버 클래스 구현 = 152
  5.6.5. 드라이버 클래스 실행 = 154
 5.7 체인(Chain) = 155
06 정렬 구현하기 = 159 
 6.1 보조 정렬 = 160
  6.1.1. 복합키 구현 = 161
  6.1.2. 복합키 비교기 구현 = 163
  6.1.3. 그룹키 파티셔너 구현 = 165
  6.1.4. 그룹키 비교기 구현 = 166
  6.1.5. 매퍼 구현 = 167
  6.1.6. 리듀서 구현 = 169
  6.1.7. 드라이버 구현 = 172
  6.1.8. 드라이버 실행 = 174
 6.2 부분 정렬(Partial Sort) = 177
  6.2.1. 시퀀스파일 생성 = 178
  6.2.2. 맵파일 생성 = 183
  6.2.3. 검색 프로그램 구현 = 186
 6.3 전체 정렬(Total Sort) = 191 
07 조인 구현하기 = 197 
 7.1 조인 데이터 준비 = 198
 7.2 맵-사이드 조인 = 199
  7.2.1. 분산 캐시(DistributedCache) = 199
  7.2.2. 매퍼 구현 = 202
  7.2.3. 드라이버 클래스 구현 = 204
  7.2.4. 드라이버 클래스 실행 = 206
 7.3 리듀스-사이드 조인 = 208
  7.3.1. 항공기 코드 데이터 매퍼 구현 = 210
  7.3.2. 항공기 운항 통계 데이터 매퍼 구현 = 211
  7.3.3. 리듀서 구현 = 213
  7.3.4. 드라이버 클래스 구현 = 214
08 맵리듀스 튜닝하기 = 219
 8.1 셔플 튜닝 = 220
  8.1.1. 셔플이란? = 220
  8.1.2. 정렬 속성 수정 = 222
 8.2 콤바이너 클래스 적용 = 224
 8.3 맵 출력 데이터 압축 = 228
  8.3.1. Gzip 적용 = 228
  8.3.2. 스내피 설치 = 230
  8.3.3. 스내피 적용 = 232
 8.4 DFS 블록 사이즈 수정 = 234
 8.5 JVM 재사용 = 239
 8.6 투기적인 잡 실행 = 240
09 하둡 운영하기 = 243
 9.1 네임노드 HA 구성 = 244
  9.1.1. 아바타 노드의 등장 배경 = 245
  9.1.2. 아바타 노드의 작동 방식 = 245
 9.2 파일 시스템 상태 확인 = 247
 9.3 HDFS 어드민 명령어 사용 = 251
  9.3.1. report = 252
  9.3.2. safemode = 253
  9.3.3. saveNamespace = 254
  9.3.4. 파일 저장 개수 설정 = 255
  9.3.5. 파일 저장 용량 설정 = 257
 9.4 데이터 저장 공간 관리 = 258
 9.5 데이터노드 제거 = 261
 9.6 데이터노드 추가 = 264
 9.7 네임노드 장애 복구 = 268
  9.7.1. 네임노드와 보조 네임노드 데이터 구조 = 269
  9.7.2. 보조 네임노드를 이용한 장애 복구 = 270
  9.7.3. NFS를 이용한 장애 복구 = 273
 9.8 데이터노드 장애 복구 = 274
10 하둡 부가기능 이용하기 = 275
 10.1 하둡 스트리밍 = 276
  10.1.1. 하둡 스트리밍의 동작 방식 = 276
  10.1.2. 하둡 스트리밍 실행 옵션 = 276
  10.1.3. 유닉스 명령어를 이용한 스트리밍 구현 = 278
  10.1.4. 파이썬을 이용한 스트리밍 구현 = 285
  10.1.5. aggregate 패키지 이용 = 289
 10.2 잡 스케줄러 = 294
  10.2.1. 페어 스케줄러 = 294
  10.2.2. 커패시티 스케줄러 = 303
11 클라우드 환경에서 하둡 실행하기 = 317
 11.1 아마존 웹 서비스(AWS) 소개 = 318
 11.2 AWS 가입하기 = 319
 11.3 EC2 하둡 설정 = 323
  11.3.1. EC2 인스턴스 생성 = 323 
  11.3.2. EC2 접속하기 = 330
  11.3.3. SSH 인증키 복사 = 337
  11.3.4. 방화벽 설정 = 338
  11.3.5. 하둡 설치 = 339
 11.4 S3 설정 = 346
  11.4.1. 데이터 업로드 = 346
  11.4.2. EC2와의 연동 = 348
 11.5 EMR 사용 = 353
  11.5.1. EMR 관리 콘솔 실행 = 353
  11.5.2. S3에 데이터 업로드하기 = 355
  11.5.3. 작업 흐름 생성 = 355
  11.5.4. 작업 흐름을 실행한 결과 확인 = 359
  11.5.5. 출력 데이터 조회 = 360
12 하이브 활용하기 = 361
 12.1 하이브 아키텍처 = 362
 12.2 하이브 설치 방법 = 363
 12.3 하이브QL 사용하기 = 366
  12.3.1. 테이블 생성 = 367
  12.3.2. 데이터 업로드 = 371
  12.3.3. 집계 함수 = 373
  12.3.4. 조인 = 377
  12.3.5. 버킷 활용 = 382
13 하둡 적용 사례 = 385
 13.1 NHN: 하둡과 몽고디비를 이용한 로그 분석 시스템 = 386
  13.1.1. 스토리지의 급격한 증가 = 386
  13.1.2. 통계 작업 솔루션 선정 = 387
  13.1.3. 맵리듀스 프레임워크를 이용한 통계 작업 = 388
  13.1.4. 통계 결과 저장소 선정 = 392
  13.1.5. 최종 시스템 구성 = 393
 13.2 넥스알: 하둡 생태계를 활용한 KT 분석 플랫폼 구축 사례 = 394
  13.2.1. NDAP 적용 배경 = 394
  13.2.2. NDAP 플랫폼 아키텍처 = 396
  13.2.3. 성능 테스트 결과 = 397
 13.3 그루터: 빅 데이터 기술을 이용한 소셜 네트워크 데이터 분석 서비스 = 398
  13.3.1. 시스템 아키텍처 = 398
  13.3.2. 제공 기능 = 402
부록 A 윈도우 환경에서 설치하기 = 407
 A.1 자바 설치 = 408
 A.2 시그윈 설치 = 409
 A.3 SSH 설정 = 418
 A.4 하둡 압축 파일 풀기 = 421
 A.5 하둡 환경설정 파일 수정 = 423
 A.6 하둡 실행 = 424
 A.7 예제 실행 = 426
부록 B 하둡 2.0 소개 = 429
 B.1 HDFS 페더레이션 = 430
  B.1.1. 기존 HDFS의 문제점 = 430
  B.1.2. HDFS 페더레이션 아키텍처 = 431
  B.1.3. HDFS 페더레이션의 장점 = 432
  B.1.4. 네임스페이스 관리 = 433
 B.2 차세대 맵리듀스: YARN = 433
  B.2.1. YARN 등장 배경 = 434
  B.2.2. YARN 시스템 아키텍처 = 434
  B.2.3. YARN의 장점 = 436 
 B.3 성능 개선 = 437 
 B.4 네임 노드의 HA 지원 = 439 

관련분야 신착자료

김종원 (2020)