HOME > Detail View

Detail View

하둡 맵리듀스 최적화와 튜닝 : MapReduce 성능 최적화를 위한 Hadoop 클러스터 구성과 튜닝 (Loan 7 times)

Material type
단행본
Personal Author
Tannir, Khaled 김현준, 역
Title Statement
하둡 맵리듀스 최적화와 튜닝 : MapReduce 성능 최적화를 위한 Hadoop 클러스터 구성과 튜닝 / 칼레드 타니어 지음 ; 김현준 옮김
Publication, Distribution, etc
의왕 :   에이콘,   2014  
Physical Medium
131 p. : 삽화 ; 24 cm
Series Statement
acorn + PACKT technical book 시리즈
Varied Title
Optimizing Hadoop for MapReduce : learn how to configure your Hadoop cluster to run optimal MapReduce jobs
ISBN
9788960775848 9788960772106 (세트)
General Note
기술감수: 브워지미에시 비질(Włodzimierz Bzyl), 크레이그 헨더슨(Craig Henderson), 마크 커즈너(Mark Kerzner)  
색인수록  
Subject Added Entry-Topical Term
Electronic data processing -- Distributed processing Cluster analysis -- Data processing
000 01313camcc2200349 c 4500
001 000045810234
005 20140911143115
007 ta
008 140905s2014 ggka 001c kor
020 ▼a 9788960775848 ▼g 94000
020 1 ▼a 9788960772106 (세트)
035 ▼a (KERIS)BIB000013525091
040 ▼a 222001 ▼c 222001 ▼d 222001 ▼d 222001 ▼d 211009
041 1 ▼a kor ▼h eng
082 0 4 ▼a 005.74 ▼2 23
085 ▼a 005.74 ▼2 DDCK
090 ▼a 005.74 ▼b 2014z5
100 1 ▼a Tannir, Khaled
245 1 0 ▼a 하둡 맵리듀스 최적화와 튜닝 : ▼b MapReduce 성능 최적화를 위한 Hadoop 클러스터 구성과 튜닝 / ▼d 칼레드 타니어 지음 ; ▼e 김현준 옮김
246 1 9 ▼a Optimizing Hadoop for MapReduce : ▼b learn how to configure your Hadoop cluster to run optimal MapReduce jobs
260 ▼a 의왕 : ▼b 에이콘, ▼c 2014
300 ▼a 131 p. : ▼b 삽화 ; ▼c 24 cm
440 0 0 ▼a acorn + PACKT technical book 시리즈
500 ▼a 기술감수: 브워지미에시 비질(Włodzimierz Bzyl), 크레이그 헨더슨(Craig Henderson), 마크 커즈너(Mark Kerzner)
500 ▼a 색인수록
630 0 0 ▼a Apache Hadoop
650 0 ▼a Electronic data processing ▼x Distributed processing
650 0 ▼a Cluster analysis ▼x Data processing
700 1 ▼a 김현준, ▼e
900 1 0 ▼a 타니어, 칼레드, ▼e
945 ▼a KLPA

Holdings Information

No. Location Call Number Accession No. Availability Due Date Make a Reservation Service
No. 1 Location Science & Engineering Library/Sci-Info(Stacks1)/ Call Number 005.74 2014z5 Accession No. 121230718 Availability Available Due Date Make a Reservation Service B M

Contents information

Book Introduction

acorn+PACKT 시리즈. 맵리듀스와 맵리듀스의 성능에 대해 개괄하고, 맵리듀스 클러스터 최적화 구성, 리소스 병목을 찾아내고 해결하는 저자의 소중한 노하우가 담겨있으며, 맵리듀스 애플리케이션과 데이터에 따른 맵리듀스의 각 단계별 상세한 튜닝법을 설명한다.

아울러 맵리듀스 애플리케이션 개발자가 반드시 숙지하고 있어야 할 코딩 기술과, 사용자의 맵리듀스 애플리케이션 성능을 극대화 할 수 있는 다양한 시스템 관련 튜닝(OS, JVM, GC, I/O 등)과 체크리스트, 그리고 애플리케이션 성능과 개발자의 생산성을 함께 높일 수 있는 맵리듀스 템플릿 코드를 제공한다.

하둡 클러스터 노드 규모 산정, 자원 병목을 찾아내기 위한 하둡 맵리듀스 성능관련 카운터 활용법, 최적의 맵퍼와 리듀서 구성, 압축과 컴바이너 활용을 통한 맵과 리듀서 태스크 처리율 최적화, 다양한 최적화 기법 이해와 클러스터 최적화의 모범사례 등을 다루고 있다.

★ 요약 ★
오픈소스인 하둡(Hadoop)에서, 클러스터 구성 및 최적화는 사용자의 기술과 경험적인 영향을 많이 받는다. 맵리듀스(MapReduce)의 경우 하위 인프라에 추가로 수행될 맵리듀스 애플리케이션과 데이터, 사용자의 특성까지 고려하여 구성하고 튜닝해야 한다. 이 책에는 맵리듀스와 맵리듀스의 성능에 대해 개괄하고, 맵리듀스 클러스터 최적화 구성, 리소스 병목을 찾아내고 해결하는 저자의 소중한 노하우가 담겨있으며, 맵리듀스 애플리케이션과 데이터에 따른 맵리듀스의 각 단계별 상세한 튜닝법을 설명한다. 아울러 맵리듀스 애플리케이션 개발자가 반드시 숙지하고 있어야 할 코딩 기술과, 사용자의 맵리듀스 애플리케이션 성능을 극대화 할 수 있는 다양한 시스템 관련 튜닝(OS, JVM, GC, I/O 등)과 체크리스트, 그리고 애플리케이션 성능과 개발자의 생산성을 함께 높일 수 있는 맵리듀스 템플릿 코드를 제공한다.

★ 이 책에서 다루는 내용 ★
■ 하둡 클러스터 노드 규모 산정
■ 자원 병목을 찾아내기 위한 하둡 맵리듀스 성능관련 카운터 활용법
■ 최적의 맵퍼와 리듀서 구성
■ 압축과 컴바이너 활용을 통한 맵과 리듀서 태스크 처리율 최적화
■ 다양한 최적화 기법 이해와 클러스터 최적화의 모범사례
■ 사용자의 하둡 클러스터 취약점 발견
■ 맵리듀스 성능에 영향을 주는 요인

★ 이 책의 대상 독자 ★
하둡 관리자 혹은 개발자, 맵리듀스 사용자, 하둡 입문자가 클러스터와 애플리케이션을 최적화하는 데 매우 유용한 도서다. 맵리듀스 애플리케이션 개발 경험이 있다면, 마지막 장의 맵리듀스 클래스 템플릿 코드를 이해하는 데 도움이 된다.


★ 이 책의 구성 ★
1 장, 맵리듀스의 이해: 맵리듀스 내부 동작 방식과 성능에 영향을 주는 요인을 찾아본다.

2 장, 하둡 설정 개요: 하둡 설정 파일과 맵리듀스 성능 관련 설정을 연구하고. 추가로 하둡 맵리듀스 활동 내역을 모니터링하는 데 사용하는 하둡 지표와 다양한 성능 모니터링 툴을 살펴본다.

3 장, 시스템 병목 검출: 하둡 맵리듀스 성능 튜닝 절차와 성능 기준치 작성 요령을 배운다. 그리고 하둡 카운터를 이용해 리소스 병목과 취약점을 찾는 방법을 배운다.

4 장, 리소스 취약점 발견: 하둡 클러스터 상태와 CPU와 메모리 사용량, 대규모 I/O 스토리지와 네트워크 전송량을 확인한다. 하둡 클러스터를 구축할 때 필요한 정확한 리소스 산정 방법을 배운다.

5 장, 맵과 리듀스 태스크 성능 향상: 맵과 리듀스 태스크 실행 성능을 향상시키는 기술을 배운다. 블록 크기의 중요성을 배우고 스필 레코드 수 절감 방법, 맵과 리듀스 처리율 측정, 맵리듀스 설정 튜닝 방법을 학습한다.

6 장, 맵리듀스 최적화: 맵과 리듀스 태스크 최적화를 위한 컴바이너와 압축 기술의 적절한 적용 예시를 살펴보고 다양한 애플리케이션 코드 최적화 기술을 학습한다.

7 장, 모범 사례와 권장 사항: 하둡 클러스터를 최대한 활용하기 위한 각종 장비와 소프트웨어의 체크리스트, 권장 사항, 튜닝 기법을 소개한다.

★ 저자 서문 ★
맵리듀스는 데이터마이닝과 웹 인덱싱 같은 대규모 또는 데이터 집약적인 애플리케이션에 매우 중요한 병렬 처리 모델이다. 하둡은 맵리듀스의 오픈소스 구현체이며, 빠른 응답시간이 요구되는 클러스터 컴퓨팅 작업에 많이 활용되고 있다.
대부분의 맵리듀스 프로그램은 데이터 분석을 위해 작성되며, 작업 완료까지 오랜 시간이 걸린다. 많은 업체에서 요구된 시간 안에 완료가 가능한 대규모 데이터 심화분석 작업으로 활용한다. 성공적인 활용을 위해 맵리듀스의 I/O 효율성은 아직 개선이 필요한 부분이다. 경험에 의하면 미숙하게 구성된 하둡 클러스터는 맵리듀스 작업 성능을 크게 저하시킨다.
이 책에서는, 맵리듀스 최적화 문제의 개요, 결점 발견 방법, 하둡 클러스터 자원을 최대한 활용한 입력 데이터 처리 방법을 살펴보게 된다. 먼저 맵리듀스 내부 동작방식을 설명하고 성능 저하 원인을 고민해본다. 2 장부터는 하둡 지표와 성능 관련 툴을 이용하여 CPU와 메모리, 대규모 I/O 스토리지, 네트워크 전송과 같이 성능에 취약한 리소스를 분석한다.
이 책은 저자의 실제 경험을 바탕으로, 작업의 병목을 최대한 제거하고 운영 환경의 맵리듀스 작업 성능을 극대화 하는 방법을 단계별로 소개한다.
마지막으로 하둡 클러스터 튜닝의 모범 사례와 권장 사항을 다루고, 맵리듀스 템플릿 클래스를 소개한다.


Information Provided By: : Aladin

Author Introduction

칼레드 타니어(지은이)

1980년부터 컴퓨터 관련 지식을 쌓기 시작했다. 전설적인 싱클레어(Sinclair) Zx81 기종과 코모도어(Commodore) 개인용 제품(Vic20, Commodore 64, Commodore 128D, Amiga 500)을 이용해 프로그래밍에 입문했다. 전자공학 학사학위를 마치고 시스템 정보설계학 석사학위를 졸업 논문과 함께 이수했다. 마지막으로 연구석사학위를 끝으로 교육인생의 종지부를 찍었다. 칼레드는 마이크로소프트 인증솔루션개발자(MCSD, Microsoft Certified Solution Developer)이며 20년 이상 소프트웨어 솔루션의 개발/구현과 기술 발표를 선도해왔다. 지금까지 프랑스와 캐나다의 다양한 회사에서 인프라 엔지니어와 시니어 개발자, 엔터프라이즈 솔루션 아키텍트로 경험을 쌓아왔고 현재는 개인 IT 컨설턴트로 일하고 있다. 마이크로소프트 닷넷(.NET)과 서버시스템, 오라클 자바 기술에 뛰어나며, 온라인/오프라인(인터넷/데스크탑) 애플리케이션 설계와 시스템 전환, 다국어 애플리케이션에 경험이 많다. 항상 새로운 주제로 연구를 진행해왔으며, 새로운 것을 배우고, 프랑스와 북아메리카, 중동 국가에서의 새로운 모험을 찾는다. 많은 서버와 모니터, 아두이노(Arduino), 넷두이노(Netduino), 라즈베리 파이(RaspBerry Pi), 닷넷 개지티어(.Net Gadgeteer) 같은 각종 오픈소스 전자기판, 윈도우폰, 안드로이드폰, iOS폰을 구비한 IT & 전자 연구실을 보유하고 있다. EGC 2012(세계 데이터마이닝 포럼, 프랑스 보르도 대학)에 참여하여 '클라우드 컴퓨팅 환경에서의 데이터 분산 최적화 기술'을 주제로 워크샵 세션과 발표를 진행한 바 있다. 이 발표의 목적은 클라우드 컴퓨팅 환경에서 k-means와 Apriori 데이터 마이닝 알고리즘을 이용한 최적화 방법을 정의하기 위함이었다. 『RavenDB 2.x Beginner's Guide』(Packt 출판)의 저자이기도 하다. 현재 클라우드 컴퓨팅과 빅데이터 박사학위를 목표로 두고 있으며, 해당 기술을 배우는 데 열정이 넘친다. 야경과 풍경 촬영, 여행, 비디오 게임, 아두이노/닷넷 개지티어를 응용한 재미있는 도구 만들기를 즐긴다. 가족과 아내와 지내는 시간은 그 무엇보다 소중한 시간이다. 이메일 주소 contact@khaledtannir.net로 연락할 수 있다.

김현준(옮긴이)

텍사스 오스틴 주립대학교 컴퓨터과학 학사학위를 이수했으며, 오스틴의 브랜딩 및 마케팅 업체에서 SEO와 웹 분석가로 활동했다. Rackspace의 클라우드 서비스를 처음 접하면서 클라우드와 분산 시스템에 관심을 가지게 됐다. 이후 한국 SK C&C 클라우드 컴퓨팅 팀에서 3년간 클라우드와 빅데이터 기술을 경험했으며, 현재는 쿠팡에서 빅데이터 기반 웹 분석, 고객 및 소비자 분석 업무를 맡고 있다. 주요 관심분야는 고객관리 및 분석과 빅데이터 기술의 접목이다.

Information Provided By: : Aladin

Table of Contents

1장 맵리듀스의 이해
___맵리듀스 모델 
___하둡 맵리듀스 개요
___하둡 맵리듀스 내부 구성
___맵리듀스 성능에 영향을 주는 요인
___정리

2장 하둡 설정 개요
___하둡 설정 연구
______mapred-site.xml 설정 파일
_________CPU 관련 설정
_________디스크 I/O 관련 설정
_________메모리 관련 설정 
_________네트워크 관련 설정
______hdfs-site.xml 설정 파일
______core-site.xml 설정 파일
___하둡 맵리듀스 지표
___성능 모니터링 툴
______척와의 하둡 모니터링
______강글리아의 하둡 모니터링
______나지오스의 하둡 모니터링
______암바리의 하둡 모니터링
___정리

3장 시스템 병목 검출
___성능 튜닝
___성능 기준치 작성
___리소스 병목 검출
______메모리 병목 검출
______CPU 병목 검출
______스토리지 병목 검출
______네트워크 병목 검출
___정리

4장 리소스 취약점 발견
___클러스터 취약점 발견
______하둡 클러스터 노드 상태 확인
______입력 데이터 크기 확인
______대규모 I/O와 네트워크 트래픽 발생 확인
______병렬 태스크 부족 증상 확인
______CPU 경합 발생 확인
___하둡 클러스터 규모 산정
___올바른 클러스터 구성
___정리

5장 맵과 리듀스 태스크 성능향상
___맵 태스크 성능향상
______입력 데이터와 블록 크기의 영향
______작고 분할이 안되는 파일 처리
______맵 단계의 스필 빈도 줄이기
______맵 태스크 처리율 계산
___리듀스 태스크 성능향상
______리듀스 태스크 처리율 계산
______리듀스 실행 단계 성능향상
___맵과 리듀스 설정 튜닝
___정리 

6장 맵리듀스 태스크 최적화
___컴바이너 활용
___압축 활용
___적절한 Writable 자료형 사용
___스마트한 자료형 재사용
___맵퍼와 리듀서 코드 최적화
___정리

7장 모범 사례와 권장 항목
___하드웨어 튜닝과 운영체제 권장 설정
______하둡 클러스터 체크리스트
______바이오스 튜닝 체크리스트
______운영체제권장설정
___하둡모범사례와권장사항
______하둡설치
______권장하둡튜닝
______맵리듀스 클래스 템플
___정리

New Arrivals Books in Related Fields