HOME > 상세정보

상세정보

R로 배우는 실무 데이터 과학 : 실용 데이터를 이용한 데이터 분석 실습! (21회 대출)

자료유형
단행본
개인저자
Zumel, Nina Mount, John, 저 임대경, 역
서명 / 저자사항
R로 배우는 실무 데이터 과학 : 실용 데이터를 이용한 데이터 분석 실습! / 니나 줌멜, 존 마운트 외 지음 ; 임대경 옮김
발행사항
파주 :   제이펍,   2017  
형태사항
xxvii, 435 p. : 삽화, 도표 ; 25 cm
원표제
Practical data science with R
ISBN
9791188621002
일반주기
색인수록  
부록: A. R과 기타 도구로 작업하기, B. 중요한 통계적 개념, C. 데이터 탐색을 위한 더 많은 도구와 아이디어  
일반주제명
Mathematical statistics --Data processing
000 00000cam c2200205 c 4500
001 000045937295
005 20181121105251
007 ta
008 180327s2017 ggkad 001c kor
020 ▼a 9791188621002 ▼g 93000
035 ▼a (KERIS)BIB000014663802
040 ▼a 222003 ▼c 222003 ▼d 211009
041 1 ▼a kor ▼h eng
082 0 4 ▼a 006.312 ▼2 23
085 ▼a 006.312 ▼2 DDCK
090 ▼a 006.312 ▼b 2017z11
100 1 ▼a Zumel, Nina ▼0 AUTH(211009)122823
245 1 0 ▼a R로 배우는 실무 데이터 과학 : ▼b 실용 데이터를 이용한 데이터 분석 실습! / ▼d 니나 줌멜, ▼e 존 마운트 외 지음 ; ▼e 임대경 옮김
246 3 ▼a 알로 배우는 실무 데이터 과학
246 1 9 ▼a Practical data science with R
260 ▼a 파주 : ▼b 제이펍, ▼c 2017
300 ▼a xxvii, 435 p. : ▼b 삽화, 도표 ; ▼c 25 cm
500 ▼a 색인수록
500 ▼a 부록: A. R과 기타 도구로 작업하기, B. 중요한 통계적 개념, C. 데이터 탐색을 위한 더 많은 도구와 아이디어
630 0 0 ▼a R (Computer program language)
650 0 ▼a Mathematical statistics ▼x Data processing
700 1 ▼a Mount, John, ▼e▼0 AUTH(211009)1740
700 1 ▼a 임대경, ▼e▼0 AUTH(211009)8774
900 1 0 ▼a 줌멜, 니나, ▼e
900 1 0 ▼a 마운트, 존, ▼e

No. 소장처 청구기호 등록번호 도서상태 반납예정일 예약 서비스
No. 1 소장처 중앙도서관/제2자료실(3층)/ 청구기호 006.312 2017z11 등록번호 111799580 도서상태 대출중 반납예정일 2021-06-25 예약 예약가능 R 서비스 M
No. 2 소장처 세종학술정보원/과학기술실/ 청구기호 006.312 2017z11 등록번호 151339264 도서상태 대출가능 반납예정일 예약 서비스
No. 소장처 청구기호 등록번호 도서상태 반납예정일 예약 서비스
No. 1 소장처 중앙도서관/제2자료실(3층)/ 청구기호 006.312 2017z11 등록번호 111799580 도서상태 대출중 반납예정일 2021-06-25 예약 예약가능 R 서비스 M
No. 소장처 청구기호 등록번호 도서상태 반납예정일 예약 서비스
No. 1 소장처 세종학술정보원/과학기술실/ 청구기호 006.312 2017z11 등록번호 151339264 도서상태 대출가능 반납예정일 예약 서비스

컨텐츠정보

책소개

실무 비즈니스에 사용할 수 있는 R 프로그래밍 언어와 유용한 통계 기술 적용 방법을 보여준다. 마케팅, 비즈니스 인텔리전스 및 의사 결정 예를 사용하여 A/B 테스트 같은 설계 방법, 예측 모델 작성 방법 및 모든 수준의 잠재 고객에게 결과를 제시하는 방법 등을 제대로 보여준다.

비즈니스 전문가를 위한 데이터 과학, R 언어를 이용한 통계 분석, 기획에서 제품 인도까지의 프로젝트 라이프사이클, 즉시 응용 가능한 수많은 사례, 효과적인 데이터 프레젠테이션의 핵심 등을 다룬다.

데이터 탐색에서 모델링, 결과 전달에 이르기까지
데이터 과학의 모든 프로세스를 담았다!


비즈니스 분석가와 개발자는 점점 더 중요한 비즈니스 데이터를 수집하고, 큐레이팅하고, 분석하고 보고한다. R 언어와 관련 도구들은 이런 과중한 업무를 학문적 이론이나 고급 수학을 적용하지 않는 일상적인 데이터 과학 작업으로 처리하는 손쉬운 방법을 제공한다.

이 책은 실무 비즈니스에 사용할 수 있는 R 프로그래밍 언어와 유용한 통계 기술 적용 방법을 보여준다. 마케팅, 비즈니스 인텔리전스 및 의사 결정 예를 사용하여 A/B 테스트 같은 설계 방법, 예측 모델 작성 방법 및 모든 수준의 잠재 고객에게 결과를 제시하는 방법 등을 제대로 보여준다.

이 책이 다루는 내용
■ 비즈니스 전문가를 위한 데이터 과학
■ R 언어를 이용한 통계 분석
■ 기획에서 제품 인도까지의 프로젝트 라이프사이클
■ 즉시 응용 가능한 수많은 사례
■ 효과적인 데이터 프레젠테이션의 핵심


정보제공 : Aladin

저자소개

존 마운트(지은이)

존 마운트는 생명 공학 분야의 컴퓨터 과학자이자 주식 거래 알고리즘 디자이너로 일했으며, Shopping.com의 연구 팀을 관리했다. 현재는 니나와 함께 Win-Vector LLC의 수석 컨설턴트로 일하고 있다.

니나 줌멜(지은이)

니나 줌멜은 독립적인 비영리 연구소 SRI International에서 과학자로 일했다. 또한, 가격 최적화 회사의 수석 과학자로 일했으며, 계약 연구 회사를 설립하기도 했었다. 현재는 Win-Vector LLC의 수석 컨설턴트로 일하고 있다.

임대경(옮긴이)

SK C&C와 IBM에서 주로 응용 애플리케이션 아키텍트로 경험을 쌓았다. 현재는 쿠팡에서 추천시스템 개발 업무를 담당하고 있다. 커피와 차에 관심이 많고 주말에는 딸과 노느라 바쁘다. 최근에는 딥러닝과 이미지 처리 분야에 관심을 가지고 있다.

정보제공 : Aladin

목차

PART I 데이터 과학 소개 
CHAPTER 1 데이터 과학 프로세스 3 
1.1 데이터 과학 프로젝트에서의 역할 3 
 1.1.1 프로젝트에서의 역할 4 
1.2 데이터 과학 프로젝트의 단계 7 
 1.2.1 목표 설정 8 
 1.2.2 데이터 수집과 관리 9 
 1.2.3 모델링 12 
 1.2.4 모델 평가와 비평 14 
 1.2.5 프레젠테이션과 문서화 15 
 1.2.6 모델 배포와 유지보수 17 
1.3 기대치 설정 17 
 1.3.1 모델 성능 상하한선 결정 18 
1.4 요약 20 

CHAPTER 2 R 프로그램에 데이터 적재하기 21 
2.1 파일에 있는 데이터 다루기 22 
 2.1.1 파일 또는 URL로부터 잘 구조화된 데이터 작업하기 22 
 2.1.2 덜 구조화된 데이터에 R 사용하기 25 
2.2 관계형 데이터베이스를 이용하여 작업하기 28 
 2.2.1 실무 예제 29 
 2.2.2 R에 데이터베이스 데이터 입력하기 34 
 2.2.3 PUMS data로 작업하기 36 
2.3 요약 39 

CHAPTER 3 데이터 탐색하기 41 
3.1 통계 요약치를 이용하여 문제 파악하기 43 
 3.1.1 데이터 요약을 통해 전형적인 데이터 문제 파악하기 44 
3.2 그래프와 시각화를 통해 문제 제거하기 48 
 3.2.1 단일변수에서 시각적으로 분산 점검하기 51 
 3.2.2 두 변수의 관계를 시각적으로 확인하기 60 
3.3 요약 71 

CHAPTER 4 데이터 관리 72 
4.1 데이터 정리하기 72 
 4.1.1 결측치 다루기 73 
 4.1.2 데이터 변환 78 
4.2 모델링과 데이터 유효성 검증을 위한 샘플링 86 
 4.2.1 테스트와 트레이닝의 분할 86 
 4.2.2 샘플 그룹 열 만들기 87 
 4.2.3 레코드 그룹화 88 
 4.2.4 데이터 출처 90 
4.3 요약 90 

PART II 모델링 기법 
CHAPTER 5 모델 선택과 평가 93 
5.1 머신러닝 과제에 문제 매핑하기 95 
 5.1.1 분류 문제 해결하기 95 
 5.1.2 스코어링 문제 해결하기 97 
 5.1.3 예측 결과 없이 일하기 98 
 5.1.4 문제와 방법 매핑하기 101 
5.2 모델 평가 103 
 5.2.1 분류 모델 평가하기 104 
 5.2.2 스코어링 모델 평가하기 110 
 5.2.3 확률 모델 평가하기 113 
 5.2.4 랭킹 모델 평가하기 118 
 5.2.5 클러스터 모델 평가하기 118 
5.3 모델 검증하기 121 
 5.3.1 일반적인 모델 문제 확인하기 122 
 5.3.2 모델 건전성 정량화 123 
 5.3.3 모델 품질 보증 124 
5.4 요약 127 

CHAPTER 6 메모라이제이션 128 
6.1 KDD와 KDD 컵 2009 128 
 6.1.1 KDD 컵 2009 데이터로 시작하기 129 
6.2 단일변수 모델 구축하기 131 
 6.2.1 범주형 특성 사용하기 132 
 6.2.2 숫자형 특성 사용하기 135 
 6.2.3 교차 검증으로 과적합 정도 측정하기 137 
6.3 다항변수를 이용하여 모델 구축하기 139 
 6.3.1 변수 선택 139 
 6.3.2 의사결정나무 사용하기 141 
 6.3.3 최근접 이웃 메서드 사용하기 145 
 6.3.4 나이브 베이즈 사용하기 149 
6.4 요약 153 

CHAPTER 7 선형 회귀와 로지스틱 회귀 155 
7.1 선형 회귀 사용하기 156 
 7.1.1 선형 회귀 이해하기 156 
 7.1.2 선형 회귀 모델 만들기 160 
 7.1.3 예측하기 161 
 7.1.4 선형 회귀에서 관계 찾기와 조언 추출하기 165 
 7.1.5 모델 요약값 해석과 계수 품질 규정하기 167 
 7.1.6 선형 회귀에서 꼭 기억할 내용 173 
7.2 로지스틱 회귀 사용하기 173 
 7.2.1 로지스틱 회귀 이해하기 174 
 7.2.2 로지스틱 회귀 모델 만들기 176 
 7.2.3 예측 모델 만들기 177 
 7.2.4 로지스틱 모델에서 관계 찾기와 조언 추출하기 181 
 7.2.5 모델 요약값 해석과 계수 품질 규정하기 183 
 7.2.6 로지스틱 회귀에서 꼭 기억할 내용 192 
7.3 요약 192 

CHAPTER 8 비지도 방법론 194 
8.1 클러스터 분석 195 
 8.1.1 거리 195 
 8.1.2 데이터 준비하기 198 
 8.1.3 hclust()를 이용한 계층적 클러스터링 199 
 8.1.4 k-means 알고리즘 211 
 8.1.5 클러스터에 새로운 포인트 추가하기 216 
 8.1.6 클러스터링에서 꼭 기억할 내용 219 
8.2 연관 규칙 219 
 8.2.1 연관 규칙 개요 219 
 8.2.2 예제 221 
 8.2.3 arules 패키지를 이용한 연관 규칙 마이닝 222 
 8.2.4 연관 규칙에서 꼭 기억할 내용 231 
8.3 요약 232 

CHAPTER 9 고급 탐색법 233 
9.1 배깅과 랜덤 포레스트를 이용하여 훈련 분산 감소시키기 234 
 9.1.1 배깅을 이용하여 예측 성능 높이기 235 
 9.1.2 랜덤 포레스트를 이용하여 예측력 향상시키기 238 
 9.1.3 배깅과 랜덤 포레스트에서 꼭 기억할 내용 243 
9.2 일반화 가법 모델로 비단조 관계 학습하기 243 
 9.2.1 GAM 이해하기 243 
 9.2.2 일차원 회귀 예제 245 
 9.2.3 비선형 관계 추출 249 
 9.2.4 실제 데이터로 GAM 사용하기 251 
 9.2.5 로지스틱 회귀에 GAM 사용하기 254 
 9.2.6 GAM에서 꼭 기억할 내용 256 
9.3 데이터 분리를 증가시키기 위해 커널 메서드 사용하기 256 
 9.3.1 커널 함수 이해하기 257 
 9.3.2 문제에 명시적 커널 사용하기 261 
 9.3.3 커널에서 꼭 기억할 내용 265 
9.4 서포트 벡터 머신으로 복잡한 결정 경계 모델링하기 265 
 9.4.1 서포트 벡터 머신 이해하기 266 
 9.4.2 인위적 예제 데이터에 SVM 적용하기 269 
 9.4.3 실데이터 기반에서 SVM 사용하기 273 
 9.4.4 서포트 벡터 머신에서 꼭 기억할 내용 276 
9.5 요약 276 

PART III 산출물 배포 
CHAPTER 10 문서화와 배포 281 
10.1 버즈 데이터셋 282 
10.2 knitr을 사용하여 마일스톤 문서 만들기 283 
 10.2.1 knitr이란? 284 
 10.2.2 knitr 세부사항 288 
 10.2.3 knitr을 이용하여 버즈 데이터 문서화하기 289 
10.3 실행 문서를 위한 주석과 버전 관리 사용하기 293 
 10.3.1 효율적인 주석 작성하기 293 
 10.3.2 레코드 히스토리를 위해 버전 컨트롤 사용하기 294 
 10.3.3 프로젝트 탐색을 위한 버전 컨트롤 사용하기 301 
 10.3.4 작업 공유를 위해 버전 관리 사용하기 306 
10.4 모델 배포하기 309 
 10.4.1 R HTTP 서비스로 모델 배포하기 310 
 10.4.2 익스포트로 모델 배포하기 313 
 10.4.3 모델 배포에서 꼭 기억할 내용 314 
10.5 요약 316 

CHAPTER 11 효과적인 발표 자료 만들기 317 
11.1 프로젝트 스폰서에게 결과 발표하기 318 
 11.1.1 프로젝트 목표 요약하기 319 
 11.1.2 프로젝트 결과 명시하기 320 
 11.1.3 세부사항 채우기 322 
 11.1.4 개선 사항과 향후 과제 토론하기 324 
 11.1.5 프로젝트 스폰서 프레젠테이션에서 꼭 기억할 내용 325 
11.2 최종 사용자에게 프레젠테이션하기 325 
 11.2.1 프로젝트 목표 요약하기 326 
 11.2.2 모델이 사용자의 워크플로에 어떻게 적용되는지 보여주기 327 
 11.2.3 모델 사용법 보여주기 329 
 11.2.4 최종 사용자 프레젠테이션에서 꼭 기억할 내용 331 
11.3 동료 데이터 과학자에게 작업 결과 프레젠테이션하기 331 
 11.3.1 문제 언급하기 332 
 11.3.2 관련 작업에 대해 의논하기 333 
 11.3.3 우리의 접근 방법에 대해 의논하기 333 
 11.3.4 향후 작업 의논하기 334 
 11.3.5 동료 프레젠테이션에서 꼭 기억할 내용 335 
11.4 요약 337 

APPENDIX A R과 기타 도구로 작업하기 339 
A.1 도구 설치하기 339 
 A.1.1 R 설치하기 339 
 A.1.2 R 패키지 시스템 340 
 A.1.3 Git 설치하기 340 
 A.1.4 RStudio 설치하기 340 
 A.1.5 R 관련 자료 341 
A.2 R 시작하기 342 
 A.2.1 R의 주요 기능 343 
 A.2.2 R의 기본 데이터 유형 348 
 A.2.3 HTTPS로 데이터 로딩하기 355 
A.3 R로 데이터베이스 사용하기 356 
 A.3.1 H2 데이터베이스 엔진 획득하기 356 
 A.3.2 SQuirreL SQL 사용하기 356 
 A.3.3 SQL 스크루드라이버 설치하기 360 
 A.3.4 SQL 변환 작업 예제 361 
 A.3.5 SQL로 생각하는 법 367 

APPENDIX B 중요한 통계적 개념 369 
B.1 분산 369 
 B.1.1 정규분포 369 
 B.1.2 R의 확률분포 명명 규칙 요약 374 
 B.1.3 로그 정규분포 375 
 B.1.4 이항분포 379 
 B.1.5 분산 관련 기타 R 도구 384 
B.2 통계 이론 384 
 B.2.1 통계 철학 385 
 B.2.2 A/B 테스트 388 
 B.2.3 검정력 394 
 B.2.4 특수 통계 테스트 397 
B.3 데이터 통계 보기 399 
 B.3.1 표본추출 편향 399 
 B.3.2 누락된 변수 편향 402 

APPENDIX C 데이터 탐색을 위한 더 많은 도구와 아이디어 408 
C.1 더 많은 도구 409 
 C.1.1 R 그 자체 409 
 C.1.2 다른 언어 409 
 C.1.3 빅데이터 도구 410 
C.2 기타 아이디어 411 
 C.2.1 적응 학습 411 
 C.2.2 통계 학습 412 
 C.2.3 컴퓨터 과학 머신러닝 412 
 C.2.4 베이지안 방법론 413 
 C.2.5 통계학 413 
 C.2.6 부스팅 413 
 C.2.7 시계열 413 
 C.2.8 도메인 지식 414 

찾아보기 416

관련분야 신착자료

Baumer, Benjamin (2021)
데이터분석과인공지능활용편찬위원회 (2021)
Harrison, Matt (2021)