HOME > 상세정보

상세정보

빅데이터 마이닝 : 하둡을 이용한 대용량 데이터 마이닝 기법

빅데이터 마이닝 : 하둡을 이용한 대용량 데이터 마이닝 기법

자료유형
단행본
개인저자
Leskovec, Jurij Rajaraman, Anand, 저 Ullman, Jeffrey D., 1942-, 저 박효군, 역 이미정, 역
서명 / 저자사항
빅데이터 마이닝 : 하둡을 이용한 대용량 데이터 마이닝 기법 / 쥬어 레스코벡, 아난드 라자라만, 제프리 데이비드 울만 지음 ; 박효균, 이미정 옮김
발행사항
서울 : 에이콘, 2017
형태사항
590 p. : 삽화 ; 25 cm
총서사항
에이콘 데이터 과학 시리즈 = Data science series
원표제
Mining of massive datasets (2nd ed.)
ISBN
9788960779532 9788960774469 (Set)
서지주기
참고문헌과 색인수록
일반주제명
Data mining Big data
000 00000cam c2200205 c 4500
001 000045920554
005 20171116094417
007 ta
008 171113s2017 ulka b 001c kor
020 ▼a 9788960779532 ▼g 94000
020 1 ▼a 9788960774469 (Set)
035 ▼a (KERIS)BIB000014413741
040 ▼a 211023 ▼c 211023 ▼d 211009
041 1 ▼a kor ▼h eng
082 0 4 ▼a 006.312 ▼2 23
085 ▼a 006.312 ▼2 DDCK
090 ▼a 006.312 ▼b 2017z9
100 1 ▼a Leskovec, Jurij
245 1 0 ▼a 빅데이터 마이닝 : ▼b 하둡을 이용한 대용량 데이터 마이닝 기법 / ▼d 쥬어 레스코벡, ▼e 아난드 라자라만, ▼e 제프리 데이비드 울만 지음 ; ▼e 박효균, ▼e 이미정 옮김
246 1 9 ▼a Mining of massive datasets ▼g (2nd ed.)
260 ▼a 서울 : ▼b 에이콘, ▼c 2017
300 ▼a 590 p. : ▼b 삽화 ; ▼c 25 cm
440 0 0 ▼a 에이콘 데이터 과학 시리즈 = ▼x Data science series
504 ▼a 참고문헌과 색인수록
650 0 ▼a Data mining
650 0 ▼a Big data
700 1 ▼a Rajaraman, Anand, ▼e▼0 AUTH(211009)31388
700 1 ▼a Ullman, Jeffrey D., ▼d 1942-, ▼e▼0 AUTH(211009)27162
700 1 ▼a 박효군, ▼e
700 1 ▼a 이미정, ▼e▼0 AUTH(211009)99863
900 1 0 ▼a 레스코벡, 쥬어, ▼e
900 1 0 ▼a 라자라만, 아난드, ▼e
900 1 0 ▼a 울만, 제프리 데이비드, ▼e
945 ▼a KLPA

No. 소장처 청구기호 등록번호 도서상태 반납예정일 예약 서비스
No. 1 소장처 중앙도서관/제2자료실(3층)/ 청구기호 006.312 2017z9 등록번호 511033225 도서상태 대출가능 반납예정일 예약 서비스 B M
No. 2 소장처 중앙도서관/제2자료실(3층)/ 청구기호 006.312 2017z9 등록번호 511033226 도서상태 대출가능 반납예정일 예약 서비스 B M
No. 3 소장처 중앙도서관/제2자료실(3층)/ 청구기호 006.312 2017z9 등록번호 511036030 도서상태 대출가능 반납예정일 예약 서비스 B M
No. 4 소장처 세종학술정보원/과학기술실/ 청구기호 006.312 2017z9 등록번호 151337724 도서상태 대출가능 반납예정일 예약 서비스
No. 소장처 청구기호 등록번호 도서상태 반납예정일 예약 서비스
No. 1 소장처 중앙도서관/제2자료실(3층)/ 청구기호 006.312 2017z9 등록번호 511033225 도서상태 대출가능 반납예정일 예약 서비스 B M
No. 2 소장처 중앙도서관/제2자료실(3층)/ 청구기호 006.312 2017z9 등록번호 511033226 도서상태 대출가능 반납예정일 예약 서비스 B M
No. 3 소장처 중앙도서관/제2자료실(3층)/ 청구기호 006.312 2017z9 등록번호 511036030 도서상태 대출가능 반납예정일 예약 서비스 B M
No. 소장처 청구기호 등록번호 도서상태 반납예정일 예약 서비스
No. 1 소장처 세종학술정보원/과학기술실/ 청구기호 006.312 2017z9 등록번호 151337724 도서상태 대출가능 반납예정일 예약 서비스

컨텐츠정보

책소개

2017년 대한민국학술원 우수학술도서. 데이터베이스와 웹 기술을 선도하는 학자들이 쓴 학생과 실무자 모두를 위한 필독서. SQL 및 관련 프로그래밍 시스템을 주제로 하는 데이터베이스 시스템 입문, 2학년 수준의 자료구조, 알고리즘, 이산수학, 2학년 수준의 소프트웨어 시스템, 소프트웨어 엔지니어링, 프로그래밍 언어를 익힌 독자들에게 적합하다.

데이터 마이닝 분야에서 다뤄지는 핵심 문제들을 빅데이터에 적용 가능한 알고리즘으로 구현할 수 있는 방법에 초점을 맞추고 있다. 기본 원리부터 머신 러닝까지 상세히 다루며, 흥미로운 사례로 넷플릭스와 전자상거래의 추천 시스템, 검색 엔진의 기본 원리 등을 이해하기 쉽게 설명한다.

2017년 대한민국학술원 우수학술도서
데이터 마이닝, 통계, 빅데이터 그리고 머신 러닝이라는 주제는 서로 떼어놓고 생각할 수 없는 관계다. 이 책은 데이터 마이닝 분야에서 다뤄지는 핵심 문제들을 빅데이터에 적용 가능한 알고리즘으로 구현할 수 있는 방법에 초점을 맞추고 있다. 스탠퍼드 대학의 교재답게(http://www.mmds.org/), 데이터 마이닝의 기본 원리부터 머신 러닝까지 상세히 다루며, 흥미로운 사례로 넷플릭스와 전자상거래의 추천 시스템, 검색 엔진의 기본 원리 등을 이해하기 쉽게 설명한다. 데이터 과학자가 되고 싶다면 이 책을 중심으로 다른 부교재들을 참고하며 공부하는 것을 추천한다.

★ 이 책에서 다루는 내용 ★
■ 대규모 데이터를 처리할 수 있는 병렬 알고리즘을 만드는 툴인 분산 파일 시스템과 맵리듀스(map-reduce)
■ 민해시(minhash)와 지역성 기반 해시(locality-sensitive hash) 알고리즘의 핵심 기술 및 유사도 검색(similarity search)
■ 매우 빨리 입력돼 즉각 처리하지 않으면 유실되는 데이터를 다루는 데 특화된 알고리즘과 데이터 스트림 처리
■ 구글의 페이지랭크(PageRank), 링크 스팸 탐지, 허브와 권위자(hubs-and-authorities) 기법을 포함하는 검색 엔진 기술
■ 연관 규칙(association rule), 시장바구니 모델(market-baskets), 선험적 알고리즘(A-Priori Algorithm)과 이를 개선한 기법들 및 빈발 항목집합(frequent-itemset) 마이닝
■ 대규모 고차원 데이터 집합을 클러스터링하는 알고리즘
■ 웹 애플리케이션과 관련된 두 가지 문제인 광고와 추천 시스템
■ 소셜 네트워크 그래프처럼 매우 큰 구조의 분석과 마이닝을 위한 알고리즘들
■ 특이 값 분해(singular value decomposition)와 잠재 의미 색인(latent semantic indexing) 및 차원 축소(dimensionality reduction)를 통해 대규모 데이터에서 중요한 속성을 도출해내는 기법들
■ 퍼셉트론(perceptron), 서포트 벡터 머신(support vector machine), 경사 하강(gradient descent) 같은 대규모 데이터에 적용 가능한 머신 러닝 알고리즘

★ 이 책의 대상 독자 ★
데이터베이스와 웹 기술을 선도하는 학자들이 쓴 이 책은 학생과 실무자 모두를 위한 필독서다. 다음의 과정을 익힌 독자들에게 적합한 책이다.
■ SQL 및 관련 프로그래밍 시스템을 주제로 하는 데이터베이스 시스템 입문
■ 2학년 수준의 자료구조, 알고리즘, 이산수학
■ 2학년 수준의 소프트웨어 시스템, 소프트웨어 엔지니어링, 프로그래밍 언어


정보제공 : Aladin

저자소개

아난드 라자라만(지은이)

실리콘 밸리를 본사로 둔 여러 회사의 기업가, 벤처 자본가이면서 학자다. 아마존닷컴(Amazon.com)이 인수한 정글리(Junglee)와 월마트(Walmart)가 인수한 코스믹스(Kosmix)라는 스타트업의 창업자기도 하다. 벤처 캐피탈 회사인 밀리웨이즈 랩(milliways Labs)과 캄브리언 벤처스(Cambrian Ventures)의 초기 창립 파트너로서, 다수의 촉망받는 회사들의 초기 투자자였던 경험이 있다. 최근까지 월마트 글로벌 이커머스(Walmart Global eCommerce)의 부사장을 역임했으며, @WalmartLabs의 공동 책임자로서 소셜, 모바일, 커머스 융합에 힘써왔다. 학계에서는 데이터베이스 시스템, 월드와이드웹, 소셜 미디어의 융합과 관련된 연구에 관심을 두고 있다. 그의 연구 논문은 ACM SIGMOD 및 VLDB의 10년 회고 우수 논문상을 비롯해 권위 있는 학회에서 여러 차례 수상했다. 또한 아마존 메커니컬 터크(Amazon Mechanical Turk)의 공동 창안자이기도 하며, 크라우스소싱(crowdsourcing)의 개념을 고안해낸 당사자다. 트위터(@anad_raj)에서 그를 팔로우할 수 있다.

제프리 데이비드 울만(지은이)

스탠퍼드 W. 애셔먼(Stanford W. Ascherman) 컴퓨터학과 (명예)교수며 현재 그래디언스(Gradiance)의 CEO다. 데이터베이스 이론, 데이터 마이닝, 정보 구조를 활용한 교육이 주요 관심 연구 주제다. 그는 데이터베이스 이론 분야의 창시자 중 한 명으로서, 추후 데이터베이스 이론가가 된 세대 전체 학생들을 지도한 박사이자 고문이었다. 최근에는 커누스상(Knuth Prize)(2000), 시그모이드 E. F. 코드 혁신상(Sigmod E. F. Codd Innovations award)(2006)을 수상했다. 또한 그는 '자동화 및 언어 이론 분야의 토대 구축과 이론적 컴퓨터 과학으로의 중대한 공헌'을 발표해 2010 IEEE 존 폰 노이만 메달(John von Neumann Medal)을 (존 홉크로프트(John Hopcroft)와 함께) 공동으로 수상했다.

쥬어 레스코벡(지은이)

스탠퍼드 대학교(Stanford University) 컴퓨터학과의 부교수로 재직 중이다. 주요 연구 분야는 대규모 소셜 네트워크 및 정보 네트워크 마이닝이다. 대규모 데이터, 웹과 온라인 미디어에 기인한 문제들에 관심이 많다. 이와 관련된 연구로 마이크로소프트 학술상(Microsoft Research Faculty Fellowship), 알프레드 P.슬론 학술상(the Alfred P.Sloan Fellowship), 오카와 재단 학술상(Okawa Foundation Fellowship)과 다수의 최고 논문상을 수상했다. 또한 스탠퍼드 네트워크 분석 플랫폼(SNAP, Stanford Network Analysis Platform)(http://snap.stanford.edu)과 수억 개의 노드 및 수십억 개의 에지(edge)를 갖는 대형 네트워크로 쉽게 확장 가능한 범용 네트워크 및 그래프 마이닝을 고안했다. 트위터에서 @jure로 그를 팔로우할 수 있다.

이미정(옮긴이)

성균관대 전자전기 컴퓨터공학부를 졸업하고, 한동대학교 정보통신공학 석사학위를 이수했다. 삼성전자 LSI 사업부 기술개발실에 근무했으며, 오라클 미들웨어 사업부에서 컨설턴트로 활동했다. 현재는 MDS 테크놀로지에서 세일즈 엔지니어로 재직 중이다. 에이콘출판사에서 출간한 『Pig를 이용한 빅데이터 처리 패턴』(2014), 『Splunk 6 핵심 기술』(2015), 『빅데이터 마이닝(2017)』을 번역했다.

박효균(옮긴이)

한동대학교 전산전자공학부를 졸업했다. 2009년부터 6년간 네이버 데이터 정보 센터에서 하둡과 데이터 엔지니어링 업무를 수행했다. 이후 네이버 랩스에서 머신 러닝을 이용해 IoT 센서 데이터를 분석했고, 현재는 네이버 검색에서 통합 검색 모델링을 담당하고 있다.

정보제공 : Aladin

목차

1장. 데이터 마이닝 
1.1 데이터 마이닝이란? 
1.2 데이터 마이닝의 통계적 한계점 
1.3 알아두면 유용한 사실들 
1.4 이 책의 개요 
1.5 요약 
1.6 참고문헌 

2장. 맵리듀스와 새로운 소프트웨어 스택 
2.1 분산 파일 시스템 
2.2 맵리듀스 
2.3 맵리듀스를 사용하는 알고리즘 
2.4 맵리듀스의 확장 
2.5 통신 비용 모델 
2.6 맵리듀스에 대한 복잡도 이론 
2.7 요약 
2.8 참고문헌 

3장. 유사 항목 찾기 
3.1 근접 이웃 탐색의 응용 
3.2 문서의 슁글링 
3.3 집합의 유사도 보존 요약 
3.4 문서의 지역성 기반 해싱 
3.5 거리 측정 
3.6 지역성 기반 함수의 이론 
3.7 기타 거리 측정법들을 위한 LSH 함수군 
3.8 지역성 기반 해시 응용 분야 
3.9 높은 유사도 처리 방법 
3.10 요약 
3.11 참고문헌 

4장. 스트림 데이터 마이닝 
4.1 스트림 데이터 모델 
4.2 스트림 데이터의 표본추출 
4.3 스트림 필터링 
4.4 스트림에서 중복을 제거한 원소 개수 세기 
4.5 모멘트 근사치 
4.6 윈도 내에서의 카운트 
4.7 감쇠 윈도 
4.8 요약 
4.9 참고문헌 

5장. 링크 분석 
5.1 페이지랭크 
5.2 페이지랭크의 효율적인 연산 
5.3 주제 기반 페이지랭크 
5.4 링크 스팸 
5.5 허브와 권위자 
5.6 요약 
5.7 참고문헌 

6장. 빈발 항목집합 
6.1 시장바구니 모델 
6.2 시장바구니와 선험적 알고리즘 
6.3 메인 메모리에서 더 큰 데이터 집합 처리하기 
6.4 단계 한정 알고리즘 
6.5 스트림에서 빈발 항목 개수 세기 
6.6 요약 
6.7 참고문헌 

7장. 클러스터링 
7.1 클러스터링 기법의 개요 
7.2 계층적 클러스터링 
7.3 k평균 알고리즘 
7.4 CURE 알고리즘 
7.5 비유클리드 공간에서의 클러스터링 
7.6 스트림을 위한 클러스터링과 병렬 처리 
7.7 요약 
7.8 참고문헌 

8장. 웹을 통한 광고 
8.1 온라인 광고와 관련된 주제들 
8.2 온라인 알고리즘 
8.3 조합 문제 
8.4 애드워즈 문제 
8.5 애드워즈 구현 
8.6 요약 
8.7 참고문헌 

9장. 추천 시스템 
9.1 추천 시스템 모델 
9.2 내용 기반 추천 
9.3 협업 필터링 
9.4 차원 축소 
9.5 넷플릭스 챌린지 
9.6 요약 
9.7 참고문헌 

10장. 소셜 네트워크 그래프 마이닝 
10.1 소셜 네트워크 그래프 
10.2 소셜 네트워크 그래프 클러스터링 
10.3 커뮤니티의 직접적 발견 
10.4 그래프 분할 
10.5 겹치는 커뮤니티 찾기 
10.6 유사순위 
10.7 삼각형의 개수 세기 
10.8 그래프의 이웃 특징 
10.9 요약 
10.10 참고문헌 

11장. 차원 축소 
11.1 고윳값과 고유벡터 
11.2 주성분 분석 
11.3 특이 값 분해 
11.4 CUR 분해 
11.5 요약 
11.6 참고문헌 

12장. 대규모 머신 러닝 
12.1 머신 러닝 모델 
12.2 퍼셉트론 
12.3 서포트 벡터 머신 
12.4 최근접 이웃 학습 
12.5 학습 방식의 비교 
12.6 요약 
12.7 참고문헌

관련분야 신착자료

Taulli, Tom (2020)