HOME > Detail View

Detail View

(대용량 데이터 분석 및 처리를 위한) Hadoop & NoSQL (Loan 26 times)

Material type
단행본
Personal Author
서상원, 저 김재홍, 저 박윤성, 저 이준섭, 저 명재석, 저
Title Statement
(대용량 데이터 분석 및 처리를 위한) Hadoop & NoSQL / 서상원 [외] 지음
Publication, Distribution, etc
서울 :   길벗,   2013  
Physical Medium
439 p. : 삽화 ; 25 cm
ISBN
9788966185030
General Note
공저자: 김재홍, 박윤성, 이준섭, 명재석  
감수: 김세영, 박희종  
색인수록  
000 00946camcc2200325 c 4500
001 000045736667
005 20130128224505
007 ta
008 130128s2013 ulka 001c kor
020 ▼a 9788966185030 ▼g 03000
035 ▼a (KERIS)BIB000013027027
040 ▼a 211062 ▼c 211062 ▼d 211009
082 0 4 ▼a 004.36 ▼2 23
085 ▼a 004.36 ▼2 DDCK
090 ▼a 004.36 ▼b 2013
245 2 0 ▼a (대용량 데이터 분석 및 처리를 위한) Hadoop & NoSQL / ▼d 서상원 [외] 지음
246 3 ▼a Hadoop and NoSQL
246 3 ▼a 대용량 데이터 분석 및 처리를 위한 Hadoop and NoSQL
260 ▼a 서울 : ▼b 길벗, ▼c 2013
300 ▼a 439 p. : ▼b 삽화 ; ▼c 25 cm
500 ▼a 공저자: 김재홍, 박윤성, 이준섭, 명재석
500 ▼a 감수: 김세영, 박희종
500 ▼a 색인수록
700 1 ▼a 서상원, ▼e
700 1 ▼a 김재홍, ▼e
700 1 ▼a 박윤성, ▼e
700 1 ▼a 이준섭, ▼e
700 1 ▼a 명재석, ▼e
945 ▼a KLPA

Holdings Information

No. Location Call Number Accession No. Availability Due Date Make a Reservation Service
No. 1 Location Science & Engineering Library/Sci-Info(Stacks1)/ Call Number 004.36 2013 Accession No. 121223181 Availability Available Due Date Make a Reservation Service B M

Contents information

Book Introduction

인터넷 기술이 급속도로 발전함에 따라 콘텐츠를 구성하는 데이터의 양이 기하급수적으로 증가하는 “빅데이터” 시대다. 유튜브나 넷플릭스 등은 이미 수년 전부터 고객의 성향을 찾아내어 적절히 추천하고 필터링하는 작업을 거쳐 맞춤형 서비스를 하고 있다. 클라우드 컴퓨팅의 가장 큰 도전은 자원의 효율적인 분배 및 안정성 보장이다. 본서에서는 하둡 뿐만 아니라 실질적인 빅데이터 분석에 쓰이는 전문 도구들을 심도 있게 다루고 있으며, 예제와 그림을 통해 쉽게 접근할 수 있도록 하였다.

최근 빅데이터의 ‘실시간성’ 이슈가 급격하게 증가함과 동시에 페이스북(Facebook)을 비롯한 많은 선도 기업들이 HBase를 채택하여 큰 관심을 받고 있다. 간단한 예제를 통하여 HBase를 설치하고 운영하는 방법뿐만 아니라, HBase의 한계를 보완하기 위한 NHN과 KT 클라우드웨어 주도로 이뤄진 국내 오픈소스 프로젝트인 DuoBase내의 HBase까지 속속들이 파헤쳐 본다.

빅데이터 처리 기술의 핵심인 하둡(Hadoop)과 NoSQL!
하둡이란 무엇일까? 기업들은 현업에서 어떤 식으로 빅데이터를 처리할까?
하둡 생태계에서의 NoSQL인 HBase를 알아보고, NHN과 KT 클라우드웨어의 주도로 진행된 국내 오픈소스 프로젝트 DuoBase 내의 HBase를 소개한다.

※ 이 책의 대상 독자
데이터 분석 또는 플랫폼 아키텍트, 또는 그와 관련된 업무를 배우려는 대학생, 개발자가 읽어야 할 책이다. 빅데이터를 다룰 때 공통적으로 알아야 할 필수적인 기술들을 실무 경험을 바탕으로 설명하고 있다.

※ 이 책의 구성
이 책은 크게 두 파트로 나뉜다. 첫 번째 파트는 챕터 1부터 4까지로, 하둡에 대한 기본기를 다진다. 챕터 5부터는 두 번째 파트로, 클라우드 컴퓨팅에 대한 주제로 환기하며 하둡을 이용한 빅데이터 도구 및 NoSQL 저장 기술에 대해 자세히 다루고 있다.

Chapter 1. 너치와 루씬으로 시작된 하둡의 역사, 국내외 구축 사례
그리고 하둡을 실제 구축하기 위해 하나의 서버를 이용해 구축하는 분산 모조형과 여러 대의 서버를 이용하여 구축하는 클러스터형에 대해서 알아본다.

Chapter 2. 하둡 분산 파일 시스템 구조 분석
특히 하둡 분산 파일 시스템(HDFS)의 주요 구성 요소인 네임노드와 데이터노드, 그리고 세컨더리 네임노드의 각자 역할과 동작 방식에 대해서 자세히 살펴본다.

Chapter 3. 빅데이터에 대한 개념 정의, 맵리듀스 살펴보기
특히, 맵리듀스의 필요성에 대해 전통적인 방식과 비교를 통해 이해하기 쉽게 설명하고 여러 가지 맵리듀스 예제를 작성해가며 맵리듀스 응용에 대한 감각을 익힌다.

Chapter 4. 하둡의 초기 버전부터 1.0 까지의 발전, 각 버전의 특징 논의
API의 변화, 덧붙이기 기능, 보안 요소를 중심으로 현재의 하둡을 깊게 이해한다. 그리고 네임노드 장애에 대응할 수 있도록 설계된 하둡 2.0의 파일 시스템과 차세대 맵리듀스로 불리우는 YARN 프레임워크를 통해 앞으로의 하둡의 발전 방향을 살펴본다.

Chapter 5. 클라우드 컴퓨팅의 기본 개념, 아마존 주요 서비스 소개
더불어 하둡을 직접 구축한 사례와 클라우드 서비스를 활용해 구축할 수 있는 방법에 대해 소개한다.

Chapter 6. 아마존의 하둡 서비스, Hive, Pig, EC2
인프라 구축 및 관리에 대한 오버헤드, 그리고 동적으로 증가하는 빅데이터에 대한 효율적인 처리를 위해서 아마존의 하둡 서비스는 클라우드 인프라를 200% 활용하여 빅데이터 운용에 대한 탄력성을 제공한다. 이러한 서비스를 직접 사용해 보고, 클라우드 환경에서의 빅데이터 운용에 대한 이슈를 살펴보기로 한다.

Chapter 7. 마하웃(Mahout), 알하이브(RHive), 지라프(Giraph) 프레임워크
다양한 기계 학습 알고리즘을 손쉽게 사용할 수 있게 해주는 도구인 마하웃(Mahout), 통계 분석 도구인 R과 하둡의 대용량 스토리지 기능을 결합한 알하이브(RHive), 하둡을 통한 그래프 데이터 처리 도구인 지라프(Giraph) 프레임워크를 살펴본다. 이러한 도구들을 통해 하둡과 맵리듀스가 생소한 사용자들도 대용량의 데이터 처리할 수 있도록 돕는다.

Chapter 8. 빅데이터 저장, 실시간 질의 및 분석을 위한 NoSQL
개발 및 배포하려는 서비스 또는 빅데이터 환경에 있어, NoSQL을 하나의 적용 가능한 솔루션으로 객관적으로 평가할 수 있도록, 그 등장 배경을 비롯하여 NoSQL의 기본적 특성, NoSQL 종류별 특성과 그것의 기본 데이터 모델링 기법에 대하여 하나하나 짚어 보는 것을 목표로 한다.

Chapter 9. 하둡 생태계에서의 NoSQL인 HBase
HBase의 특징적인 데이터 모델링 및 스키마를 알아보고, HBase의 시스템 구조를 살펴본다. 그리고 간단한 예제를 통하여 HBase를 설치하고 기본적으로 운영하는 방법에 대하여 알아본다. 마지막으로, HBase의 제약점과 부족한 점을 보완하기 위해 NHN과 KT 클라우드웨어 주도로 진행하는 국내 오픈소스 프로젝트인 DuoBase 내의 HBase를 소개한다.


Information Provided By: : Aladin

Author Introduction

서상원(지은이)

KAIST 전산학과 박사를 수료하고 클라우드 가상화 기술 개발 벤처를 설립했었고 2011년 대기업에 매각한 이후 KT Cloudware에서 본부장으로 근무하다 현재는 LG전자 본사 스마트비지니스센터에서 컨버전스서비스팀을 이끌고 있다. 혁신 비즈니스 발굴에 관심이 많아 파운더스 캠프(http://www.founders.kr)에서 벤처기업을 위한 기술 멘토링과 엔젤클럽 활동에도 참여하고 있다. 2000년대 중반부터 IT 서적과 잡지에 꾸준히 글을 쓰고 있다.

김재홍(지은이)

KAIST 전산학과 박사 과정을 수료한 그는 대학원 시절 C++를 KAIST 대학원생을 대상으로 강의한 경험이 있다. 주로, 컴퓨터 시스템 분야에 관심이 많아 C 언어와 C++를 주로 사용하였으며 C++ 기반의 컴퓨터 시스템 시뮬레이터 제작과 실험을 많이 하였다. 주요 외국 학회와 저널 투고를 꾸준히 하고 있다.

박윤성(지은이)

KAIST 로봇공학과를 졸업하였고 학부시절부터 C++의 매력에 빠져 다양한 C++ 프로젝트를 수행하였다. 학부시절에는 삼성전자 소프트웨어 멤버십 일원이면서 로봇과 임베디드에 빠져 다양한 프로젝트를 수행하였고 대학원 시절에는 로봇 시스템과 음성처리에서도 많은 경험을 쌓았다. 학부시절부터 유명 잡지에 기고해오면서 아는 지식을 전파하기 위해 많은 노력을 하였다. 현재는 클라우드 컴퓨팅 관련 회사에서 더 나은 서버 환경을 위해 다양한 경험을 쌓고 있다.

이준섭(지은이)

- 현, 팀장(KT 클라우드웨어) - 전략총괄이사(아헴스) - 연구원(ETRI) - 한국과학기술원 전산학 석사 졸업

명재석(지은이)

- 현, 서울대학교 컴퓨터공학 박사과정

김세영(감수)

- 현, 아키텍트(KT 클라우드웨어) - 연구개발 본부장(아헴스) - 성균관대학교 정보통신공학 졸업

박희종(감수)

- 현, PM(KT 클라우드웨어) - 사업기획팀장(아헴스) - KTH, SK 컴즈, 인터파크 - 성균관대학교 기계공학과 졸업

Information Provided By: : Aladin

Table of Contents

목차
CHAPTER 01 하둡 소개와 클러스터 구축하기    
 1. 하둡(Hadoop) 소개 = 14
  1.1 클라우드 컴퓨팅과 하둡 = 14
  1.2 하둡의 역사 = 17
 2. 하둡 구축 사례 = 21
  2.1 해외 구축 사례 = 21
  2.2 국내 구축 사례 = 22
 3. 하둡 클러스터 구축하기 = 23
  3.1 분산 파일 시스템 = 24
  3.2 하둡 클러스터 구축을 위한 준비사항 = 29
  3.3 분산 모조형(Pseudo-distribution) 구축하기 = 38
  3.4 분산형(Cluster) 구축하기 = 56
 4. 하둡 인터페이스 = 67
  4.1 하둡 분산 파일 시스템 명령어 인터페이스 = 67
 5. 요약 = 75
CHAPTER 02 하둡 분산 처리 파일 시스템    
 1. 하둡 분산 파일 시스템의 설계 = 78
 2. 하둡 분산 파일 시스템의 전체 구조 살펴보기 = 80
 3. 네임노드의 역할 = 82
  3.1 메타데이터 관리 = 82
  3.2 메타데이터의 안전한 보관 - Edits와 FsImage 파일과 세컨더리 네임노드 = 90
  3.3 데이터노드 관리 = 95
 4. 데이터노드의 역할 = 105
  4.1 블록 관리 = 105
  4.2 데이터 복제와 과정 = 109
  4.3 데이터노드 추가 = 113
 5. 요약 = 116
CHAPTER 03 빅데이터와 맵리듀스    
 1. 빅데이터의 개요 = 120
  1.1 빅데이터란? = 121
  1.2 빅데이터의 가치 창출 = 122
 2. 맵리듀스(MapReduce) = 124
  2.1 맵리듀스 예제 : 단어 빈도수 세기(Word Count) = 125
  2.2 맵리듀스 소스 코드 : 단어 빈도수 세기(Word Count) - Java 기반 = 130
  2.3 맵리듀스 소스 코드 : 단어 빈도수 세기(Word Count) - Ruby 언어 기반 = 132
 3. 맵리듀스의 구조 = 135
  3.1 예제로 살펴본 맵리듀스 구조 = 136
  3.2 구조적 관점에서의 맵리듀스 최적화 방법 = 141
 4. 맵리듀스의 고장 감내성(Fault Tolerance) = 145
 5. 맵리듀스 프로그래밍 = 147
  5.1 검색 = 147
  5.2 정렬 = 148
  5.3 역 인덱스 = 149
  5.4 가장 인기 있는 단어 찾기 = 150
  5.5 숫자 합산 = 151
 6. 하둡 구축하기 : 맵리듀스 예제로 살펴보기 = 152
  6.1 단어 빈도수 세기 맵리듀스 프로그래밍 = 154
  6.2 맵리듀스 - 사용자 인터페이스 = 160
 7. 요약 = 167
CHAPTER 04 하둡 버전별 특징 및 진화    
 1. 하둡 0.1x 버전의 API = 171
 2. 하둡의 덧붙이기(append) 기능 = 177
 3. 하둡의 보안 관련 기능 = 181
 4. 하둡 2.0.0 alpha = 184
  4.1 하둡 2.0.0 alpha 설치 = 186
  4.2 하둡 분산 파일 시스템의 변경 = 198
  4.3 차세대 맵리듀스 프레임워크 : YARN = 209
 5. 요약 = 221
CHAPTER 05 클라우드 컴퓨팅과 하둡    
 1. 대규모 하둡 클러스터 구축과 사례 = 224
 2. 클라우드 인프라 서비스의 등장 = 227
  2.1 아마존 클라우드 서비스 = 228
 3. 아마존 EC2에 하둡 클러스터 구축하기 = 246
  3.1 Apache Whirr란? = 247
  3.2 하둡 클러스터 구축하기 = 248
 4. 요약 = 253
CHAPTER 06 아마존 Elastic MapReduce 200% 활용하기    
 1. 아마존 EMR(Elastic MapReduce) 활용하기 = 256
  1.1 아마존 EMR이란? = 256
  1.2 아마존 EMR의 구조 = 257
  1.3 아마존 EMR의 특징 = 258
  1.4 아마존 EMR의 잡 플로우와 스텝 = 259
  1.5 아마존 EMR을 사용 전 알아야 할 사항 = 260
  1.6 아마존 EMR 실전 활용 = 268
 2. 요약 = 288
CHAPTER 07 하둡을 이용한 빅데이터 분석    
 1. 하둡을 이용한 기계 학습(Mahout) = 293
  1.1 설치 및 컴파일 = 294
  1.2 K-means 군집 알고리즘 = 297
  1.3 벡터 유사도를 이용한 협업적 필터링 = 306
  1.4 요약 = 316
 2. 하둡을 이용한 통계 분석 RHive(R and Hive) = 316
  2.1 R 설치 및 활용 = 317
  2.2 Hive 설치 및 활용 = 321
  2.3 RHive 설치 및 활용 = 326
  2.4 요약 = 335
 3. 하둡을 이용한 그래프 데이터 처리 Giraphi = 335
 4. 요약 = 350
CHAPTER 08 데이터에서의 DBMS, NoSQL    
 1. NoSQL 등장 배경 : 빅데이터 그리고 Web 2.0 = 355
  1.1 Web 2.0에 의한 빅데이터의 등장 = 355
  1.2 빅데이터에 의한 NoSQL의 등장 = 359
  1.3 빅데이터와 Web 2.0에 적합한 데이터 스토어로서의 NoSQL = 361
 2. NoSQL 정의 및 종류별 특징 = 365
 3. NoSQL 데이터 모델 개요 및 분류 = 371
 4. NoSQL 데이터 모델링 = 374
  4.1 NoSQL 데이터 모델링 기본 개념 = 376
  4.2 일반적인 NoSQL 모델링 기법 = 379
 5. 주요 NoSQL의 비교 및 선택 = 385
 6. 요약 = 390
CHAPTER 09 HBase : 하둡에서의 NoSQL    
 1. 하둡 생태계에서의 HBaseB = 394
 2. HBase 소개 = 390
 3. HBase 데이터 모델 = 403
  3.1 맵(map) = 403
  3.2 지속성(persistent) = 404
  3.3 분산(distributed) = 404
  3.4 정렬(sorted) = 404
  3.5 다차원(multidimensional) = 406
  3.6 스파스(sparse) = 410
 4. HBase 스키마 = 411
 5. HBase 구조 = 416
 6. HBase 구축 및 운영 = 420
 7. HBase의 확장 - DuoBase 내의 HBase B = 424
 8. HBase의 사용자 정의 인덱스 = 428
  8.1 HBase 사용자 정의 인덱스 - HFile 포맷의 확장 = 429
  8.2 HBase 사용자 정의 인덱스 - 리전의 확장 = 430
  8.3 HBase 사용자 정의 인덱스 - 멤스토어의 확장 = 433
 9. 요약 = 434

New Arrivals Books in Related Fields

김종원 (2020)
김자미 (2021)