HOME > Detail View

Detail View

(파이썬으로 배우는) 데이터 과학 입문과 실습 : 소규모 데이터셋 처리부터 빅데이터 처리, 머신러닝, 시각화까지 (Loan 3 times)

Material type
단행본
Personal Author
Cielen, Davy Meysman, Arno, 저 Ali, Mohamed, 저 최용, 역
Title Statement
(파이썬으로 배우는) 데이터 과학 입문과 실습 : 소규모 데이터셋 처리부터 빅데이터 처리, 머신러닝, 시각화까지 / 데이비 실린, 아르노 메이즈맨, 모하메드 알리 지음 ; 최용 옮김
Publication, Distribution, etc
파주 :   위키북스,   2018  
Physical Medium
336 p. : 삽화 ; 24 cm
Series Statement
데이터 사이언스 시리즈 ;11
Varied Title
Introducing data science : big data, machine learning, and more, using Python tools
ISBN
9791158390938
General Note
색인수록  
부록: '일래스틱서치 설치 -- Neo4j 설치 -- MySQL 서버 설치' 외  
000 00000cam c2200205 c 4500
001 000045935063
005 20191010150128
007 ta
008 180313s2018 ulka 001c kor
020 ▼a 9791158390938 ▼g 93000
040 ▼a 211009 ▼c 211009 ▼d 211009
041 1 ▼a kor ▼h eng
082 0 4 ▼a 006.312 ▼2 23
085 ▼a 006.312 ▼2 DDCK
090 ▼a 006.312 ▼b 2018z16
100 1 ▼a Cielen, Davy
245 2 0 ▼a (파이썬으로 배우는) 데이터 과학 입문과 실습 : ▼b 소규모 데이터셋 처리부터 빅데이터 처리, 머신러닝, 시각화까지 / ▼d 데이비 실린, ▼e 아르노 메이즈맨, ▼e 모하메드 알리 지음 ; ▼e 최용 옮김
246 1 9 ▼a Introducing data science : ▼b big data, machine learning, and more, using Python tools
260 ▼a 파주 : ▼b 위키북스, ▼c 2018
300 ▼a 336 p. : ▼b 삽화 ; ▼c 24 cm
490 1 0 ▼a 데이터 사이언스 시리즈 ; ▼v 11
500 ▼a 색인수록
500 ▼a 부록: '일래스틱서치 설치 -- Neo4j 설치 -- MySQL 서버 설치' 외
546 ▼a 영어로 된 원저작을 한국어로 번역
700 1 ▼a Meysman, Arno, ▼e
700 1 ▼a Ali, Mohamed, ▼e
700 1 ▼a 최용, ▼e
830 0 ▼a 데이터 사이언스 시리즈 ; ▼v 11
900 1 0 ▼a 실린, 데이비, ▼e
900 1 0 ▼a 아르노 메이즈맨, ▼e
900 1 0 ▼a 모하메드 알리, ▼e

Holdings Information

No. Location Call Number Accession No. Availability Due Date Make a Reservation Service
No. 1 Location Sejong Academic Information Center/Science & Technology/ Call Number 006.312 2018z16 Accession No. 151340673 Availability Available Due Date Make a Reservation Service C

Contents information

Book Introduction

데이터 과학의 주요 개념을 설명하고 데이터 과학자로서 기본적인 작업을 완수할 수 있는 법을 알려준다. 데이터 과학의 진행 과정과 데이터 시각화, 그래프 데이터베이스, NoSQL 사용법 등을 살펴보고, 파이썬 언어 및 파이썬 라이브러리를 사용해 큰 규모의 데이터를 다뤄 본다.

데이터의 규모가 너무 크거나 생성 속도가 너무 빨라서 한 대의 컴퓨터로 처리하기 힘든 경우에 파이썬을 어떻게 활용할 수 있는지도 살펴본다. 또한 유명한 파이썬 데이터 과학 라이브러리인 사이킷런(Scikit-learn)과 스태츠모델스(StatsModels)도 탐구해 본다.

《파이썬으로 배우는 데이터 과학 입문과 실습》은 데이터 과학의 주요 개념을 설명하고 데이터 과학자로서 기본적인 작업을 완수할 수 있는 법을 가르친다.

데이터 과학의 진행 과정과 데이터 시각화, 그래프 데이터베이스, NoSQL 사용법 등을 살펴보고, 파이썬 언어 및 파이썬 라이브러리를 사용해 큰 규모의 데이터를 다뤄 본다. 데이터의 규모가 너무 크거나 생성 속도가 너무 빨라서 한 대의 컴퓨터로 처리하기 힘든 경우에 파이썬을 어떻게 활용할 수 있는지도 살펴본다. 또한 유명한 파이썬 데이터 과학 라이브러리인 사이킷런(Scikit-learn)과 스태츠모델스(StatsModels)도 탐구해 본다.

이 책을 읽은 후에는 데이터 과학의 커리어를 시작하는 데 필요한 탄탄한 기본기를 갖추게 될 것이다.

★ 이 책에서 다루는 내용 ★

◎ 대규모 데이터 처리
◎ 머신러닝 소개
◎ 파이썬으로 데이터 다루기
◎ 데이터 과학 알고리즘 작성


Information Provided By: : Aladin

Author Introduction

데이비 실린(지은이)

데이비 실린은 창업가, 저자, 교수다. 각각 벨기에와 영국에 있는 데이터 과학 회사인 옵티메이틀리(Optimately)와 메이튼(Maiton)을 아르노(Arno)와 모하메드(Mohamed)와 함께 공동으로 소유하고 있으며, 소마릴란드에 있는 데이터 과학 회사도 공동으로 소유하고 있다. 이 회사들은 빅 데이터 과학의 전략을 주로 다루며, 많은 대기업에 컨설팅을 한다. 데이비는 프랑스 릴의 IESEG 경영대학원에서 빅데이터 과학 분야를 가르치고 연구하는 겸임 교수다.

아르노 메이즈맨(지은이)

아르노 메이즈맨은 기업가이자 데이터 과학자다. 아르노는 데이터 과학자로서 의료, 유통, 게임에 이르는 다양한 분야에 관심을 두고 있다. 그는 데이터로부터 얻는 통찰과 상상력을 통해 이 세계를 더 나은 곳으로 만들 수 있으리라고 희망한다.

모하메드 알리(지은이)

모하메드 알리는 기업가이며 데이터 과학 컨설턴트다. 그는 데이터 과학과 지속 가능한 프로젝트의 두 영역에 열정을 가지고 있다. 후자는 소마릴란드에 근거한 세 번째 회사를 설립함으로써 빛을 보게 되었다.

최용(옮긴이)

한국방송통신대학교에서 컴퓨터 과학을 전공하고 2000년대 초부터 IT 업계에서 일했다. 은행의 일괄 작업 운영과 서버 운영 자동화를 돕는 외산 소프트웨어의 기술 지원 업무를 주로 했고, 현재는 위키북스에서 교정 업무를 하고 있다. 저서로 《왕초보를 위한 파이썬》(사이버출판사, 2002), 《예제 중심의 파이썬》(인피니티북스) 등이 있으며, 《파이썬으로 배우는 데이터 과학 입문과 실습》(위키북스), 《익스플로링 라즈베리 파이》(위키북스), 《침투 본능, 해커의 기술》(위키북스), 《웹 애플리케이션 보안》(한빛미디어) 등을 번역했다.

Information Provided By: : Aladin

Table of Contents

목차
01장 빅데이터 세상에서의 데이터 과학 
 1.1. 데이터 과학 및 빅데이터의 이점과 활용 = 2
 1.2. 데이터 종류 = 4
  1.2.1. 구조적 데이터 = 4
  1.2.2. 비구조적 데이터 = 6
  1.2.3. 자연어 = 6
  1.2.4. 기계 생성 데이터 = 6
  1.2.5. 그래프 데이터 또는 네트워크 데이터 = 7
  1.2.6. 오디오, 이미지, 비디오 = 8
  1.2.7. 스트리밍 데이터 = 9
 1.3. 데이터 과학 과정 = 9
  1.3.1. 연구 목표 설정 = 9
  1.3.2. 데이터 획득 = 10
  1.3.3. 데이터 준비 = 10
  1.3.4. 데이터 탐색 = 11
  1.3.5. 데이터 모델링 또는 모델 구축 = 11
  1.3.6. 발표 및 자동화 = 11
 1.4. 빅데이터 생태계와 데이터 과학 = 12
  1.4.1. 분산 파일 시스템 = 12
  1.4.2. 분산 프로그래밍 프레임워크 = 14
  1.4.3. 데이터 통합 프레임워크 = 14
  1.4.4. 머신러닝 프레임워크 = 14
  1.4.5. NoSQL 데이터베이스 = 15
  1.4.6. 스케줄링 도구 = 16
  1.4.7. 벤치마크 도구 = 16
  1.4.8. 시스템 배포 = 16
  1.4.9. 서비스 프로그래밍 = 17
  1.4.10. 보안 = 17
 1.5. 하둡 작업의 예 = 17
 1.6. 요약 = 23
02장 데이터 과학 진행 과정 
 2.1. 데이터 과학 진행 과정 개요 = 25
  2.1.1. 과정의 노예가 되지 마라 = 28
 2.2. 1단계 : 연구 목표 설정 및 프로젝트 사명서 작성 = 29
  2.2.1. 연구의 목표와 맥락을 이해하는 데 시간을 투자하라 = 29
  2.2.2. 프로젝트 사명서 작성 = 30
 2.3. 2단계 : 데이터 획득 = 30
  2.3.1. 회사 내에 저장된 데이터로 시작하기 = 31
  2.3.2. 여기저기서 데이터를 사는 일을 두려워 마라 = 32
  2.3.3. 문제가 일어나지 않게 데이터의 품질을 미리 확인하라 = 33
 2.4. 3단계 : 데이터 정제, 통합, 변환 = 33
  2.4.1. 데이터 정제 = 34
  2.4.2. 오류를 최대한 일찍 수정하라 = 40
  2.4.3. 서로 다른 출처로부터 얻은 데이터 합치기 = 42
  2.4.4. 데이터 변환 = 46
 2.5. 4단계 : 탐색적 데이터 분석 = 49
 2.6. 5단계 : 모델 구축 = 54
  2.6.1. 모델과 변수 선택 = 55
  2.6.2. 모델링 실시 = 55
  2.6.3. 모델 분석과 비교 = 60
 2.7. 6단계 : 분석 결과 표현과 애플리케이션 구축 = 62
 2.8. 요약 = 63
03장 머신러닝 
 3.1. 머신러닝의 정의와 중요성 = 64
  3.1.1. 데이터 과학에 머신러닝을 적용 = 65
  3.1.2. 데이터 과학 진행 과정에서 머신러닝이 사용되는 곳 = 66
  3.1.3. 머신러닝에 사용하는 파이썬 도구 = 67
 3.2. 모델링 과정 = 70
  3.2.1. 특성 공학과 모델 선택 = 71
  3.2.2. 모델 훈련 = 72
  3.2.3. 모델 검증 = 72
  3.2.4. 새로운 관찰을 예측하기 = 74
 3.3. 머신러닝 종류 = 74
  3.3.1. 지도 학습 = 75
  3.3.2. 비지도 학습 = 82
  3.3.3. 준지도 학습 = 94
 3.4. 요약 = 95
04장 컴퓨터 한 대에서 대량 데이터 다루기 
 4.1. 대량 데이터를 다룰 때의 문제 = 98
 4.2. 대량 데이터를 처리하는 일반적인 기법 = 99
  4.2.1. 적절한 알고리즘 선택 = 100
  4.2.2. 적절한 데이터 구조 선택 = 110
  4.2.3. 적절한 도구 선택 = 113
 4.3. 대규모 데이터셋을 다룰 때의 일반적인 프로그래밍 지침 = 115
  4.3.1. 바퀴를 재발명하지 말라 = 115
  4.3.2. 하드웨어 성능을 최대한 활용하라 = 116
  4.3.3. 컴퓨팅의 필요를 줄여라 = 116
 4.4. 사례 연구 1 : 해로운 URL 여부 예측 = 117
  4.4.1. 1단계 : 연구 목표 설정 = 118
  4.4.2. 2단계 : URL 데이터 얻기 = 118
  4.4.3. 4단계 : 데이터 탐색 = 119
  4.4.4. 5단계 : 모델 구축 = 121
 4.5. 사례 연구 2 : 데이터베이스에 추천 시스템 구축 = 123
  4.5.1. 필요한 도구 및 기법 = 124
  4.5.2. 1단계 : 연구 질문 = 126
  4.5.3. 3단계 : 데이터 준비 = 127
  4.5.4. 5단계 : 모델 구축 = 131
  4.5.5. 6단계 : 표현 및 자동화 = 133
 4.6. 요약 = 135
05장 빅데이터 첫걸음 
 5.1. 프레임워크를 이용해 데이터 저장과 처리를 분산화하기 = 138
  5.1.1. 하둡 : 대규모 데이터셋을 저장하고 처리하기 위한 프레임워크 = 138
  5.1.2. 스파크 : 더 높은 성능을 내기 위해 맵리듀스를 대체 = 142
 5.2. 사례 연구 : 금전 대출 위험 평가 = 143
  5.2.1. 1단계 : 연구 목표 설정 = 145
  5.2.2. 2단계 : 데이터 획득 = 146
  5.2.3. 3단계 : 데이터 준비 = 151
  5.2.4. 4단계 : 데이터 탐색&6단계 : 보고서 구축 = 156
 5.3. 요약 = 169
06장 NoSQL 운동에 동참하기 
 6.1. NoSQL 개요 = 173
  6.1.1. ACID : 관계형 데이터베이스의 핵심 원리 = 173
  6.1.2. CAP 정리 : 여러 노드에 걸쳐 존재하는 DB의 문제 = 174
  6.1.3. NoSQL 데이터베이스의 BASE 원칙 = 176
  6.1.4. NoSQL 데이터베이스의 종류 = 178
 6.2. 사례 연구 : 질병 진단 = 185
  6.2.1. 1단계 : 연구 목표 설정 = 187
  6.2.2. 2단계와 3단계 : 데이터 획득 및 준비 = 188
  6.2.3. 4단계 : 데이터 탐색 = 197
  6.2.4. 3단계를 반복 : 질병 프로파일링을 위한 데이터 준비 = 207
  6.2.5. 4단계를 반복 : 질병 프로파일링을 위한 데이터 탐색 = 211
  6.2.6. 6단계 : 표현 및 자동화 = 213
 6.3. 요약 = 214
07장 그래프 데이터베이스의 부상 
 7.1. 연결 데이터와 그래프 데이터베이스 = 216
  7.1.1. 그래프 데이터는 무엇이며 언제 사용해야 하는가? = 219
 7.2. 네오포제이(Neo4j) : 그래프 데이터베이스 = 222
  7.2.1. 사이퍼(Cypher) : 그래프 질의 언어 = 224
 7.3. 연결 데이터 예제 : 요리법 추천 엔진 = 231
  7.3.1. 1단계 : 연구 목표 설정 = 232
  7.3.2. 2단계 : 데이터 획득 = 233
  7.3.3. 3단계 : 데이터 준비 = 235
  7.3.4. 4단계 : 데이터 탐색 = 240
  7.3.5. 5단계 : 데이터 모델링 = 243
  7.3.6. 6단계 : 표현 = 246
 7.4. 요약 = 247
08장 텍스트 마이닝과 텍스트 분석 
 8.1. 실제 세계에서의 텍스트 마이닝 = 251
 8.2. 텍스트 마이닝 기법 = 256
  8.2.1. 단어 주머니 = 256
  8.2.2. 형태소 처리와 표제어 추출 = 258
  8.2.3. 의사결정 트리 분류기 = 260
 8.3. 사례 연구 : 레딧 게시물 분류 = 262
  8.3.1. 자연어 도구 사용하기 = 263
  8.3.2. 데이터 과학 과정 개요 및 1단계 : 연구 목표 = 265
  8.3.3. 2단계 : 데이터 획득 = 266
  8.3.4. 3단계 : 데이터 준비 = 271
  8.3.5. 4단계 : 데이터 탐색 = 275
  8.3.6. 3단계를 반복 : 데이터 준비 적응 = 278
  8.3.7. 5단계 : 데이터 분석 = 283
  8.3.8. 6단계 : 발표 및 자동화 = 287
 8.4. 요약 = 290
09장 최종 사용자를 위한 데이터 시각화 
 9.1. 데이터 시각화의 선택사항 = 292
 9.2. Crossfilter : 자바스크립트 맵리듀스 라이브러리 = 295
  9.2.1. 구성 = 296
  9.2.2. 크로스필터를 사용해 의약품 데이터셋을 필터링 = 302
 9.3. dc.js로 상호작용 대시보드 만들기 = 306
 9.4. 대시보드 개발 도구 = 313
 9.5. 요약 = 315
부록 A : 일래스틱서치 설치 
 A.1. 리눅스에 일래스틱서치 설치하기 = 317
 A.2. 윈도우에 일래스틱서치 설치하기 = 319
부록 B : Neo4j 설치 
 B.1. 리눅스에 Neo4j 설치하기 = 323
 B.2. 윈도우에 Neo4j 설치하기 = 324
부록 C : MySQL 서버 설치 
 C.1. 윈도우에 MySQL 서버 설치하기 = 326
 C.2. 리눅스에 MySQL 서버 설치하기 = 327
부록 D : 아나콘다 설치 및 가상 환경 구성 
 D.1. 리눅스에 아나콘다 설치하기 = 330
 D.2. 윈도우에 아나콘다 설치하기 = 331
 D.3. 환경 설정 = 331

New Arrivals Books in Related Fields

Deisenroth, Marc Peter (2020)