HOME > Detail View

Detail View

(거침 없이 배우는) 하둡 (Loan 26 times)

Material type
단행본
Personal Author
Lam, Chuck 이현남, 역 강택현, 역
Title Statement
(거침 없이 배우는) 하둡 / Chuck Lam 지음 ; 이현남, 강택현 옮김
Publication, Distribution, etc
고양 :   지앤선,   2012  
Physical Medium
xxii, 375 p. : 삽화, 도표 ; 24 cm
Varied Title
Hadoop in action
ISBN
9788993827477
General Note
부록: HDFS 파일 명령어  
감수: 김병곤, 장회수, 원종석, 김완철  
Bibliography, Etc. Note
참고문헌과 색인수록
Subject Added Entry-Topical Term
Electronic data processing -- Distributed processing Open source software
000 01016camcc2200337 c 4500
001 000045720117
005 20120920103927
007 ta
008 120919s2012 ggkad b 001c kor
020 ▼a 9788993827477 ▼g 93560
035 ▼a (KERIS)BIB000012849343
040 ▼a 241050 ▼c 241050 ▼d 211009
041 1 ▼a kor ▼h eng
082 0 4 ▼a 004.36 ▼2 22
085 ▼a 004.36 ▼2 DDCK
090 ▼a 004.36 ▼b 2012z1
100 1 ▼a Lam, Chuck
245 2 0 ▼a (거침 없이 배우는) 하둡 / ▼d Chuck Lam 지음 ; ▼e 이현남, ▼e 강택현 옮김
246 1 9 ▼a Hadoop in action
260 ▼a 고양 : ▼b 지앤선, ▼c 2012
300 ▼a xxii, 375 p. : ▼b 삽화, 도표 ; ▼c 24 cm
500 ▼a 부록: HDFS 파일 명령어
500 ▼a 감수: 김병곤, 장회수, 원종석, 김완철
504 ▼a 참고문헌과 색인수록
650 0 ▼a Electronic data processing ▼x Distributed processing
650 0 ▼a Open source software
700 1 ▼a 이현남, ▼e
700 1 ▼a 강택현, ▼e
900 1 0 ▼a 램, 척, ▼e
945 ▼a KLPA

Holdings Information

No. Location Call Number Accession No. Availability Due Date Make a Reservation Service
No. 1 Location Science & Engineering Library/Sci-Info(Stacks1)/ Call Number 004.36 2012z1 Accession No. 121221166 Availability Available Due Date Make a Reservation Service B M

Contents information

Book Introduction

하둡은 빅 데이터 시대에 반드시 필요한 기술이다. OS로 비유하면 리눅스 커널로 표현될 정도로 분산처리 기술에서 다양한 분야에 활용되고 있다. 이 책은 하둡의 설치에서부터 활용까지 이해하기 쉽게 단계적으로 구성되어 있다. 특히 아마존 클라우드에서 하둡을 직접 구성할 수 있도록 하여, 그 활용성을 높였다.
그뿐만 아니라 대용량의 데이터를 병렬적으로 처리하기 위한 MapReduce 프로그램의 상세한 설명과 고급수준의 언어로 대용량 데이터를 처리할 수 있는 Pig에 대해서도 다룬다. 마지막으로 하둡의 실제 비즈니스 적용 사례 연구를 살펴본다.

하둡은 빅 데이터 시대에 반드시 필요한 기술이다. OS로 비유하면 리눅스 커널로 표현될 정도로 분산처리 기술에서 다양한 분야에 활용되고 있다.
이 책은 하둡의 설치에서부터 활용까지 이해하기 쉽게 단계적으로 구성되어 있다. 특히 아마존 클라우드에서 하둡을 직접 구성할 수 있도록 하여, 그 활용성을 높였다.
그뿐만 아니라 대용량의 데이터를 병렬적으로 처리하기 위한 MapReduce 프로그램의 상세한 설명과 고급수준의 언어로 대용량 데이터를 처리할 수 있는 Pig에 대해서도 다룬다. 마지막으로 하둡의 실제 비즈니스 적용 사례 연구를 살펴본다.

위와 같은 내용을 바탕으로 이 책은 하둡을 처음 접하는 사람들에게 하둡에 대한 좋은 가이드 역할을 할 것이다.

감수후기

오랫동안 현장에서 일하면서 하둡을 처음 접할 때 어려움을 아직도 기억합니다. 특히 개발을 비롯해 운영, 장비 관리까지 하는 경우 그 다양한 특성과 설치 및 관리 개발을 경험해본 개발자라면 더욱더 그 어려움에 동감할 것입니다. 그래서 국내 두 번째 하둡 전문 서적이 출간된 점에 매우 감사드립니다.
‘거침없이 배우는 하둡’은 초심자를 위해서 철저하게 내용이 구성된 책입니다. 하둡의 시작은 설치라고 할 정도로 인프라와 밀접하게 관련 있는 하둡은 초보자에게 있어서 설치부터 그 외 모든 것이 거대한 산과 같아 보입니다. 빅 데이터 기술의 근간인 하둡이 A에서 Z까지 초심자를 위해서 잘 구성된 이 책을 통해 많은 하둡 개발자들이 활동할 수 있는 계기가 되었으면 하며 또한 빅 데이터가 IT 산업 전반에 걸쳐 많이 도입되었으면 하는 바람입니다.
김병곤 한국자바개발자협의회(JCO) 회장/클라우다인 대표이사/지식경제부 SWMaestro 멘토
JBoss User Group 대표 운영자

지금까지 나온 하둡 및 분산처리 관련 서적 중에서 가장 practical한 서적이라고 생각합니다. 이전에 나온 하둡 책들이 이론과 API에 대해서 주로 다룬 책이었다면 본 서적은 하둡을 처음 접근하는 사람이 차근차근 다뤄가면서 익히기 좋은 책입니다. 실습 환경을 갖추기 어려운 초심자를 위해서 AWS, S3를 통한 적용을 다루는 등 초심자에 대한 세심한 배려가 인상적입니다.

장회수 JBoss User Group

원서 자체가 실용적으로 잘 정리된 훌륭한 책으로서 그 번역서가 나왔다는 점은 매우 고무적인 것 같습니다. 하둡 설치 시 어려웠던 점을 본 서적에서 매우 쉽게 다루고 있어서 초심자에게 있어서 큰 도움이 될 것으로 생각하며 최근 Hadoop 1.0.x를 현장에서 적용 중임에도 활용하는 데 전혀 무리가 없을 만큼 훌륭한 내용을 담고 있습니다. 특히 초심자에게 추천합니다.
원종석 KTH 데이터 지능팀/JBoss User Group 운영자

데이터를 만들고, 보관하고 분석하여 비즈니스에 활용하는 예는 IT 기술이 생긴 이래 계속되어 왔습니다. 최근 들어 초기부터 축적했던 엄청난 양의 데이터를 처리하는 기술은 하둡이라는 오픈소스 플랫폼을 통해 다시 한번 빛을 보고 있는 것 같습니다. 하둡은 병렬처리를 통한 빠른 데이터 처리능력뿐만 아니라 하둡을 기반으로 한 여러 가지 오픈 소스를 통해 원하는 데이터를 빠르고, 쉽게 만들어 낼 수 있어, 빅 데이터 처리 분야에서 주목을 받고 있으며, 비용 때문에 구축을 어려워하던 기업들에 최상의 서비스를 제공해줄 수 있는 멋진 오픈소스 플랫폼이라 할 수 있습니다. 또한, 대량의 데이터를 처리하는 기업들이 적극 도입한다면, 데이터 분석을 통해 새로운 비즈니스 창출과 기업 운영에 많은 도움이 될 수 있을 것입니다.

김완철 네오위즈/JBoss User Group


Information Provided By: : Aladin

Author Introduction

척 램(지은이)

RollCall이라는 모바일 소셜 네트워크 분야의 신생회사를 창립했다. 이전에는 RockYou의 시니어 테크 리드(Senior Tech Lead)였으며, 수백만 명의 사용자를 다루는 데이터처리 인프라스트럭처와 소셜 애플리케이션을 개발했다.

이현남(옮긴이)

S/W 개발자이며 삼성 SDS에서 삼성전자 S/W 개발 업무를 수행한 경험이 있다. 현재는 LG 유플러스에서 커머스 관련 개발을 하고 있으며, 번역서로는 지앤선의 ‘「거침없이 배우는 하둡」등이 있다.

강택현(옮긴이)

성균관대학교 산업공학과를 졸업한 뒤, 6년간 삼성 SDS에서 시스템 개발과 운영을 담당하였다. 그 후 미국에서 Computer Science 석사과정을 마쳤으며, 현재는 Texas Tech에서 안정적인 시스템 구축을 위한 ‘Fault tolerance(self-healing) mechanism’을 연구 중이다.

김병곤(감수)

EJB2, EJB3 집필 JMS 서버 개발 Hot Deploy를 지원하는 자율 분산 시스템의 통신 미들웨어 개발 자바 애플리케이션 성능 컨설팅 자바 애플리케이션 소스 코드 정적 분석 컨설팅 JBoss User Group 카페지기 SCA-SW 진흥원 Opensource Infrastructure & Java EE Component 과정 강사(JBoss/EJB3) JBoss/EJB3/Java Application Performance Profiling 강의 KSPICE 회원 현재 분산 파일 시스템 연구 중

원종석(감수)

현대기아자동차 생산관리 시스템 개발 TU Media 위성 DMB 영업정보 시스템 개발 Withfuture 이슈 관리 시스템 워크플로우 엔진 개발 현대증권 YouFirst 개발 SKT HELIO 영업정보 시스템 개발 SK Communications 인사평가 시스템 개발 Virgin Mobile USA CCBS API 웹 서비스 시스템 개발 JBoss User Group 관리자

장회수(감수)

JBoss User Group

김완철(감수)

자바 백엔드 엔지니어로 웹/모바일 플랫폼을 개발해왔으며, 현재 소프트웨어 아키텍트로 자바와 Node.js를 사용해 IoT 솔루션을 개발하고 있다. 한국 제이보스 유저 그룹(KJBUG, Korea JBoss User Group) 멤버로 활동하고 있으며, 실시간 빅데이터 분석 및 블록체인에 관심이 많다.

Information Provided By: : Aladin

Table of Contents

목차
PART 01 하둡 - 분산 프로그래밍 프레임워크
 CHAPTER 01 하둡 소개 = 2
  1.1 왜 하둡의 실행을 다루는가? = 3
  1.2 하둡은 무엇인가? = 4
  1.3 분산 시스템과 하둡의 이해 = 5
  1.4 SQL 데이터베이스와 하둡의 비교 = 7
  1.5 MapReduce의 이해 = 9
   1.5.1 간단한 프로그램의 확장 = 9
   1.5.2 동일한 프로그램을 MapReduce를 이용해 확장 = 13
  1.6 하둡을 이용한 단어 세기 - 프로그램의 첫 번째 실행 = 16
  1.7 하둡의 역사 = 22
  1.8 요약 = 23
  1.9 참고 자료 = 24
 CHAPTER 02 하둡 시작하기 = 25
  2.1 하둡의 구성 요소 = 25
   2.1.1 NameNode = 26
   2.1.2 DataNode = 27
   2.1.3 Secondary NameNode = 28
   2.1.4 JobTracker = 28
   2.1.5 TaskTracker = 29
  2.2 하둡 클러스터를 위한 SSH의 설정 = 30
   2.2.1 일반적인 계정 정의 = 31
   2.2.2 SSH 설치와 확인 = 31
   2.2.3 쌍으로 이루어진 SSH 키의 생성 = 32
   2.2.4 공개 키 배포와 로그인 테스트 = 32
  2.3 하둡의 실행 = 33
   2.3.1 Standalone(독립실행) 모드 = 34
   2.3.2 Pseudo-distributed(가상분산) 모드 = 35
   2.3.3 Fully distributed(완전분산) 모드 = 37
  2.4 웹 기반의 클러스터 UI = 41
  2.5 요약 = 43
CHAPTER 03 하둡 컴포넌트 = 44
  3.1 하둡 파일 다루기 = 45
   3.1.1 기본적인 파일 명령어 = 45
   3.1.2 프로그램을 이용한 HDFS의 읽기와 쓰기 = 50
  3.2 MapReduce 프로그램의 구조 = 54
   3.2.1 하둡 데이터 타입 = 55
   3.2.2 Mapper = 57
   3.2.3 Reducer = 58
   3.2.4 Partitioner - Mapper 결과를 여러 Reducer로 전달 = 59
   3.2.5 Combiner - 로컬 reduce = 61
   3.2.6 미리 정의된 mapper와 reducer 클래스를 이용한 단어 세기 = 61
  3.3 읽기와 쓰기 = 62
   3.3.1 InputFormat = 63
   3.3.2 OutputFormat = 69
  3.4 요약 = 71
PART 02 하둡 인 액션
 CHAPTER 04 MapReduce 기본 프로그램 작성 = 74
  4.1 특허 데이터 가져오기 = 75
   4.1.1 특허 인용 데이터 = 76
   4.1.2 특허 기술 데이터 = 77
  4.2 MapReduce 프로그램의 기본 템플릿(견본) 작성 = 79
  4.3 카운팅하기 = 85
  4.4 변경된 하둡 API 적용 = 91
  4.5 하둡 Streaming = 95
   4.5.1 유닉스 명령어 기반의 Streaming = 96
   4.5.2 스크립트를 이용한 Streaming 처리 = 97
   4.5.3 키/값 쌍을 이용한 Streaming = 103
   4.5.4 Aggregate 패키지를 이용한 Streaming = 107
  4.6 Combiners를 이용한 성능의 향상 = 113
  4.7 배운 내용 연습 = 117
  4.8 요약 = 119
  4.9 참고 자료 = 120
 CHAPTER 05 고급 MapReduce = 122
  5.1 MapReduce job들의 사슬 엮기 = 123
   5.1.1 MapReduce job들을 순서대로 연결하기 = 123
   5.1.2 복잡한 의존 관계에 있는 MapReduce job들의 사슬 연결 = 123
   5.1.3 전처리와 후처리 단계를 사슬 관계로 처리하기 = 124
  5.2 다양한 자료를 활용하기 위한 데이터 조인 = 129
   5.2.1 Reduce-side 조인 = 130
   5.2.2 분산 캐시(distributed cache)를 사용한 replicated 조인 = 141
   5.2.3 Semijoin(중간 형태의 조인): reduce 단계의 조인과 map 단계의 필터링 = 145
  5.3 Bloom 필터의 생성 = 147
   5.3.1 Bloom 필터의 기능 = 147
   5.3.2 Bloom 필터의 실행 = 150
   5.3.3 하둡 0.20+버전에서의 Bloom 필터 = 158
  5.4 배운 내용 연습 = 158
  5.5 요약 = 160
  5.6 참고 자료 = 160
 CHAPTER 06 프로그래밍 연습 = 162
  6.1 MapReduce 프로그램의 개발 = 163
   6.1.1 Local(독립실행) 모드 = 164
   6.1.2 Pseudo-distributed(가상분산) 모드 = 170
  6.2 Production 클러스터의 모니터링과 디버깅 = 176
   6.2.1 카운터 = 176
   6.2.2 잘못된 레코드 건너뛰기 = 179
   6.2.3 IsolationRunner를 이용한 실패한 태스크의 재실행 = 182
  6.3 성능 향상을 위한 튜닝 = 184
   6.3.1 Combiner에서 네트워크 트래픽의 개선 = 184
   6.3.2 입력 데이터량의 감소 = 185
   6.3.3 압축의 이용 = 185
   6.3.4 JVM의 재사용 = 188
   6.3.5 추론적인 실행(speculative execution)을 통한 동작 = 189
   6.3.6 코드와 알고리즘의 수정 = 191
  6.4 요약 = 192
 CHAPTER 07 Cookbook = 193
  7.1 Job 관련 파라미터를 태스크로 전달 = 193
  7.2 태스크 관련 정보 검색 = 197
  7.3 다수의 출력 파일들로 파티셔닝 = 198
  7.4 데이터베이스로부터 입력, 데이터베이스로의 출력 = 205
  7.5 모든 출력을 정렬된 순서로 유지 = 207
  7.6 요약 = 209
 CHAPTER 08 하둡 관리 = 210
  8.1 실사용을 위한 파라미터 값 설정 = 211
  8.2 시스템 Health 체크 = 213
  8.3 권한 설정 = 216
  8.4 쿼터 관리 = 217
  8.5 휴지통(trash) 활성화 = 218
  8.6 DataNode 제거 = 219
  8.7 DataNode 등록 = 220
  8.8 NameNode 관리와 Secondary NameNode = 221
  8.9 NameNode 장애복구 = 223
  8.10 네트워크 레이아웃과 랙 인식 디자인 = 225
  8.11 다수 사용자의 job 스케줄링 = 228
   8.11.1 다수의 JobTracker = 228
   8.11.2 Fair Scheduler = 229
  8.12 요약 = 232
PART 03 하둡의 성장
 CHAPTER 09 클라우드에서 하둡 수행 = 234
  9.1 아마존 웹 서비스(AWS) 소개 = 235
  9.2 AWS 설정 = 236
   9.2.1 AWS 인증 정보(credentials) 가져오기 = 237
   9.2.2 커맨드 라인 툴 = 240
   9.2.3 SSH 키 쌍 준비 = 242
  9.3 EC2에서 하둡 설정 = 244
   9.3.1 보안 파라미터 설정 = 244
   9.3.2 클러스터 타입 구성 = 244
  9.4 EC2에서 MapReduce 프로그램 수행 = 246
   9.4.1 애플리케이션 코드를 하둡 클러스터로 전송 = 247
   9.4.2 하둡 클러스터에 있는 데이터 접근 = 248
  9.5 EC2 인스턴스 종료 및 정리 = 253
  9.6 아마존 EMR과 그 외 AWS 서비스 = 254
   9.6.1 아마존 EMR = 254
   9.6.2 AWS Import/Export = 256
  9.7 요약 = 256
 CHAPTER 10 Pig 프로그래밍 = 258
  10.1 Pig처럼 생각하기 = 259
   10.1.1 데이터 흐름 언어 = 259
   10.1.2 데이터 형식 = 260
   10.1.3 사용자 정의 함수 = 260
  10.2 Pig 설치 = 260
  10.3 Pig 수행 = 262
   10.3.1 Grunt 셸 관리 = 263
  10.4 Grunt로부터 Pig Latin 수행 = 265
  10.5 Pig Latin = 271
   10.5.1 데이터 타입과 스키마 = 271
   10.5.2 표현(expression)과 함수(function) = 273
   10.5.3 관계 연산자 = 275
   10.5.4 실행 최적화 = 285
  10.6 사용자 정의 함수 사용 = 286
   10.6.1 사용자 정의 함수 사용 = 286
   10.6.2 사용자 정의 함수 작성 = 287
  10.7 스크립트 수행 = 291
   10.7.1 주석 = 291
   10.7.2 파라미터 치환 = 292
   10.7.3 멀티쿼리(multiquery) 실행 = 293
  10.8 유사한 특허들을 계산하는 예제 = 295
  10.9 요약 = 301
 CHAPTER 11 Hive와 하둡 지원 프로젝트들 = 302
  11.1 Hive = 303
   11.1.1 Hive의 설치와 구성 = 304
   11.1.2 쿼리 예제 = 307
   11.1.3 HiveQL = 311
   11.1.4 Hive 요약 = 320
  11.2 하둡과 관련된 또 다른 프로젝트 = 322
   11.2.1 HBase = 323
   11.2.2 ZooKeeper = 323
   11.2.3 Cascading = 323
   11.2.4 Cloudera = 324
   11.2.5 Katta = 324
   11.2.6 CloudBase = 325
   11.2.7 Aster Data와 Greenplum = 325
   11.2.8 Hama와 Mahout = 325
   11.2.9 search-hadoop.com = 326
  11.3 요약 = 326
 CHAPTER 12 사례연구 = 327
  12.1 뉴욕 타임즈 보관소에 있는 천백만 개의 이미지 문서 변환 = 328
  12.2 차이나 모바일에서의 데이터 마이닝 = 329
  12.3 스텀블어폰에서 최고의 웹사이트 추천 = 335
   12.3.1 스텀블어폰에서 분산 처리 시작 = 335
   12.3.2 HBase와 스텀블어폰 = 336
   12.3.3 스텀블어폰에서 하둡 이상의 것들 = 345
  12.4 기업용 검색을 위한 분석- IBM Project ES2 = 347
   12.4.1 ES2 구조 = 351
   12.4.2 ES2 크롤러 = 352
   12.4.3 ES2 분석 = 354
   12.4.4 결론 = 364
   12.4.5 참고 자료 = 364
부록 : HDFS 파일 명령어 = 366
찾아보기 = 370

New Arrivals Books in Related Fields

김종원 (2020)
김자미 (2021)