
000 | 00000cam c2200205 c 4500 | |
001 | 000045919453 | |
005 | 20171102173252 | |
007 | ta | |
008 | 171101s2017 ulka 001c kor | |
020 | ▼a 9788960779792 ▼g 94000 | |
020 | 1 | ▼a 9788960772106 (Set) |
035 | ▼a (KERIS)BIB000014463303 | |
040 | ▼a 211052 ▼c 211052 ▼d 211009 | |
041 | 1 | ▼a kor ▼h eng |
082 | 0 4 | ▼a 005.74 ▼2 23 |
085 | ▼a 005.74 ▼2 DDCK | |
090 | ▼a 005.74 ▼b 2017z2 | |
100 | 1 | ▼a Du, Dayong |
245 | 1 0 | ▼a 하이브 핵심정리 : ▼b 하둡 기반 대용량 데이터 저장, 관리의 핵심 솔루션 / ▼d 다융 두 지음 ; ▼e 김용환 옮김 |
246 | 1 9 | ▼a Apache Hive essentials : ▼b immerse yourself on a fantastic journey to discover the attributes of big data by using Hive |
260 | ▼a 서울 : ▼b 에이콘, ▼c 2017 | |
300 | ▼a 226 p. : ▼b 삽화 ; ▼c 24 cm | |
440 | 0 0 | ▼a acorn+PACKT technical book |
500 | ▼a 색인수록 | |
630 | 0 0 | ▼a Apache Hadoop |
650 | 0 | ▼a Database management |
650 | 0 | ▼a Databases ▼x Development |
650 | 0 | ▼a Databases ▼x Design |
700 | 1 | ▼a 김용환, ▼e 역 |
900 | 1 0 | ▼a 두, 다융, ▼e 저 |
945 | ▼a KLPA |
소장정보
No. | 소장처 | 청구기호 | 등록번호 | 도서상태 | 반납예정일 | 예약 | 서비스 |
---|---|---|---|---|---|---|---|
No. 1 | 소장처 과학도서관/Sci-Info(1층서고)/ | 청구기호 005.74 2017z2 | 등록번호 121242208 | 도서상태 대출가능 | 반납예정일 | 예약 | 서비스 |
컨텐츠정보
책소개
빅데이터 도메인의 배경과 개념을 소개하고, 하이브 작업 환경을 설정하는 방법을 설명한다. 많은 예시를 통해 빅데이터의 값을 찾는 방법과 변환하는 방법을 소개하며 하이브 언어를 효율적으로 사용할 수 있는 기술도 안내한다. 마지막에는 성능, 보안과 같은 고급 주제 뿐만 아니라, 하이브의 확장까지 설명한다. 이 책은 하이브 언어를 실무에 적용하고, 확장하고자 하는 이들에게 훌륭한 가이드가 되어 줄 것이다.
★ 요약 ★
이 책은 빅데이터 도메인의 배경과 개념을 소개하고, 하이브 작업 환경을 설정하는 방법을 설명한다. 많은 예시를 통해 빅데이터의 값을 찾는 방법과 변환하는 방법을 소개하며 하이브 언어를 효율적으로 사용할 수 있는 기술도 안내한다. 마지막에는 성능, 보안과 같은 고급 주제 뿐만 아니라, 하이브의 확장까지 설명한다. 이 책은 하이브 언어를 실무에 적용하고, 확장하고자 하는 이들에게 훌륭한 가이드가 되어 줄 것이다.
★ 이 책에서 다루는 내용 ★
■ 하이브 환경의 생성과 셋업
■ 데이터를 설명하는 하이브 정의 언어의 사용 방법 발견.
■ 하이브의 데이터 집합에 조인과 필터링을 사용해 의미 있는 데이터 발견
■ 하이브 정렬, 순서, 함수를 사용해 데이터 변환
■ 데이터 집계와 샘플링
■ 하이브 쿼리 성능 개선과 데이터 보안성 향상
■ 하이브를 다른 툴과 연동하고, 사용자 정의 함수를 사용해 하이브를 최적화
★ 이 책의 대상 독자 ★
이 책은 하둡의 데이터를 확인하고 분석하는 데 하이브를 사용하려는 데이터 분석가, 개발자, 사용자를 대상으로 한다. 빅데이터에 대해 초보자든 전문가든, 이 책을 접한 독자는 하이브의 기본 기능과 고급 기능을 잘 다룰 수 있게 될 것이다.
하이브는 SQL과 같은 언어이기 때문에, SQL 언어와 데이터베이스에 대한 경험이 있다면 훨씬 이해가 쉽고, 유용하게 적용할 수 있다.
★ 이 책의 구성 ★
1장, ‘빅데이터와 하이브 소개’에서는 빅데이터의 진화, 하둡 생태계, 하이브를 소개한다.
하이브 아키텍처와 빅데이터 분석에서 하이브를 사용하는 장점도 살펴본다.
2장, ‘하이브 환경 설정’에서는 하이브 환경 설정을 설명한다. 하이브를 사용한 커맨드 라인과 개발 툴도 다룬다.
3장, ‘데이터 정의와 설명’에서는 하이브의 테이블, 파티션, 버킷, 뷰에 대한 기본 데이터 타입과 데이터 정의 언어를 소개한다.
4장, ‘데이터 선택과 범위’에서는 하이브에 데이터의 쿼리, 연결, 범위를 요청함으로써 데이터를 찾는 방법을 보여준다.
5장, ‘데이터 조작’에서는 하이브의 데이터를 변경, 이동, 정렬, 변환하는 과정을 설명한다.
6장, ‘데이터 집계와 샘플링’에서는 분석 함수, 윈도우 기능, 샘플 절을 사용해 집계하는 방법과 샘플링하는 방법을 설명한다.
7장, ‘성능 고려 사항’에서는 설계, 파일 포맷, 압축, 저장소, 쿼리, 작업 관점에서 성능 고려사항에 대한 모범 사례를 소개한다.
8장, ‘확장성 고려 사항’에서는 사용자 정의 함수, 스트리밍, 직렬화, 역직렬화를 생성해서 하이브를 확장하는 방법을 다룬다.
9장, ‘보안 고려 사항’에서는 인증, 권한, 암호화 관점으로 하이브의 보안 영역을 소개한다.
10장, ‘다른 툴과의 연동’에서는 기타 빅데이터 툴과 어떻게 연동할 수 있는지를 다룬다. 하이브 배포 버전의 주요 이정표를 살펴본다.
정보제공 :

저자소개
다융 두(지은이)
빅데이터를 실제로 다루는 사람이고, 개발자 조직을 이끌고 있으며, 기술 컨설팅, 설계, 엔터프라이즈 빅데이터 솔루션 구현에 전문 지식이 많은 개발자다. 엔터프라이즈 데이터 웨어하우스, 비즈니스 인텔리전스, 빅데이터와 분석 분야에 10년 이상의 경력을 가지고 있으며, 방송 미디어, 여행사, 통신사 등 다양한 산업에 데이터 인텔리전스 경험을 제공하고 있다. 현재 캐나다의 토론토에 위치한 퀵플레이 미디어(QuickPlay Media) 사에서 근무하고 있으며, 온라인 미디어 서비스와 콘텐츠 제작자를 위한 엔터프라이즈 빅데이터 인텔리젼스 리포팅 시스템을 개발하고 있다. 댈하우지 대학교(Dalhousie University)에서 컴퓨터 과학 석사 학위를 받았고, 클라우데라 인증 아파치 하둡 개발자 인증서(Cloudera Certified Developer for Apache Hadoop certification)를 가지고 있다.
김용환(옮긴이)
알티캐스트, 네이버, 라인, SK Planet을 거쳐 현재 카카오에서 개발자로 일하고 있다. 이제 마흔네 살의 평범한 개발자로 다양한 도전에서 에너지를 얻으며, 개발과 실무 경험을 블로그(http://knight76.tistory.com)에 기록하고 있다. 정보통신산업진흥원(NIPA) 산하의 소프트웨어공학포털에 개발 관련 내용을 공유했고, 여러 콘퍼런스와 세미나에서 그동안 쌓은 개발 지식을 발표하고 있다. 스스로에게는 물론 누군가에게 도움이 될 수 있다는 생각으로 번역을 시작했는데, 어느덧 15번째 책이다.

목차
1장. 빅데이터와 하이브 소개 __짧은 역사 __빅데이터의 소개 __관계형 데이터베이스와 NoSQL vs 하둡 __배치, 실시간, 스트림 처리 __하둡 생태계의 개요 __하이브 개요 __요약 2장. 하이브 환경 설정 __아파치에서 하이브 설치하기 __외부 업체 패키지에서 하이브 설치하기 __클라우드에서 하이브 시작하기 __하이브 커맨드 라인과 비라인 사용하기 __하이브 통합 개발 환경 __요약 3장. 데이터 정의와 설명 __하이브의 데이터 타입 이해하기 __데이터 타입 변환 __하이브 데이터 정의 언어 __하이브 데이터베이스 __하이브의 내부 및 외부 테이블 __하이브 파티션 __Hive buckets __하이브 뷰 __요약 4장. 데이터 선택과 범위 __SELECT 문 __INNER JOIN 문 __OUTER JOIN과 CROSS JOIN __특수 조인: MAP JOIN __집합 명령: UNION ALL __요약 5장. 데이터 조작 __데이터 교환 -LOAD __데이터 교환: INSERT __데이터 교환: EXPORT와 IMPORT __ORDER와 SORT __명령어와 함수 __트랜잭션 __요약 6장. 데이터 집계와 샘플링 __기초적인 집계: GROUP BY __고급 집계: GROUPING SETS __고급 집계: ROLLUP와 CUBE __집계 조건: HAVING __분석 함수 __샘플링 __요약 7장. 성능 고려 사항 __성능 유틸리티 __EXPLAIN 문 __ANALYZE 문 __설계 최적화 __파티션 테이블 __버킷 테이블 __인덱스 __데이터 파일 최적화 __파일 포맷 __압축저장소 최적화 __작업과 쿼리 최적화 __로컬 모드 __JVM 재사용 __병렬 실행 __작업 최적화 __일반 조인 __맵 조인 __버킷 맵 조인 __정렬 합병 버킷 조인 __정렬 합병 버킷 맵 조인 __왜곡 조인 __요약 8장. 확장성 고려 사항 __사용자 정의 함수 __UDF 코드 템플릿 __UDAF 코드 템플릿 __UDTF 코드 템플릿 __개발과 배포 __스트리밍 __SerDe __요약 9장. 보안 고려 사항 __인증 __메타 저장소 서버 인증 __HiveServer2 인증 __권한레거시 권한 모드 __저장소 기반 권한 모드 __SQL 표준 기반 모드 __암호화 __요약 10장. 다른 툴과의 연동 __JDBC / ODBC 커넥터 __HBase __Hue __HCatalog __주키퍼 __우지 __하이브 로드맵 __요약