000 | 01093camcc2200301 c 4500 | |
001 | 000045813027 | |
005 | 20141112090517 | |
007 | ta | |
008 | 141015s2014 ggkad 001c kor | |
020 | ▼a 9788960776135 ▼g 94000 | |
035 | ▼a (KERIS)BIB000013577329 | |
040 | ▼a 241050 ▼c 241050 ▼d 211009 | |
041 | 1 | ▼a kor ▼h eng |
082 | 0 4 | ▼a 006.31 ▼2 23 |
085 | ▼a 006.31 ▼2 DDCK | |
090 | ▼a 006.31 ▼b 2014 | |
100 | 1 | ▼a Lantz, Brett |
245 | 1 0 | ▼a R을 활용한 기계 학습 : ▼b 데이터 분석을 위한 머신 러닝 이론과 적용 / ▼d 브레트 란츠 지음 ; ▼e 전철욱 옮김 |
246 | 1 9 | ▼a Machine learning with R : ▼b learn how to use R to apply powerful machine learning methods and gain an insight into real-world applications |
260 | ▼a 의왕 : ▼b 에이콘, ▼c 2014 | |
300 | ▼a 452 p. : ▼b 삽화, 도표 ; ▼c 23 cm | |
440 | 0 0 | ▼a acorn+PACKT technical book |
500 | ▼a 색인수록 | |
500 | ▼a 기술감수: 지아 리우(Jia Liu), 므자발라조 응웬야(Mzabalazo Z. Ngwenya), 아비나브 우파디야이(Abhinav Upadhyay) | |
700 | 1 | ▼a 전철욱, ▼e 역 ▼0 AUTH(211009)1319 |
900 | 1 0 | ▼a 란츠, 브레트, ▼e 저 |
945 | ▼a KLPA |
Holdings Information
No. | Location | Call Number | Accession No. | Availability | Due Date | Make a Reservation | Service |
---|---|---|---|---|---|---|---|
No. 1 | Location Main Library/Monographs(3F)/ | Call Number 006.31 2014 | Accession No. 111726258 | Availability Available | Due Date | Make a Reservation | Service |
No. 2 | Location Science & Engineering Library/Sci-Info(Stacks1)/ | Call Number 006.31 2014 | Accession No. 121231042 | Availability Available | Due Date | Make a Reservation | Service |
No. 3 | Location Science & Engineering Library/Sci-Info(Stacks1)/ | Call Number 006.31 2014 | Accession No. 121231920 | Availability Available | Due Date | Make a Reservation | Service |
No. 4 | Location Sejong Academic Information Center/Science & Technology/ | Call Number 006.31 2014 | Accession No. 151327169 | Availability Available | Due Date | Make a Reservation | Service |
No. | Location | Call Number | Accession No. | Availability | Due Date | Make a Reservation | Service |
---|---|---|---|---|---|---|---|
No. 1 | Location Main Library/Monographs(3F)/ | Call Number 006.31 2014 | Accession No. 111726258 | Availability Available | Due Date | Make a Reservation | Service |
No. | Location | Call Number | Accession No. | Availability | Due Date | Make a Reservation | Service |
---|---|---|---|---|---|---|---|
No. 1 | Location Science & Engineering Library/Sci-Info(Stacks1)/ | Call Number 006.31 2014 | Accession No. 121231042 | Availability Available | Due Date | Make a Reservation | Service |
No. 2 | Location Science & Engineering Library/Sci-Info(Stacks1)/ | Call Number 006.31 2014 | Accession No. 121231920 | Availability Available | Due Date | Make a Reservation | Service |
No. | Location | Call Number | Accession No. | Availability | Due Date | Make a Reservation | Service |
---|---|---|---|---|---|---|---|
No. 1 | Location Sejong Academic Information Center/Science & Technology/ | Call Number 006.31 2014 | Accession No. 151327169 | Availability Available | Due Date | Make a Reservation | Service |
Contents information
Book Introduction
acorn+PACKT 시리즈. 이 책은 R이 제공하는 다양한 확률, 통계 기법을 모두 사용할 수 있을 뿐만 아니라 사용법도 쉽기 때문에 누구나 데이터를 분석하고 예측할 수 있게 한다. 손쉬운 CRAN을 통해 라이브러리를 설치는 다양한 라이브러리가 필요한 기계 학습에 매우 적합하다. 저자는 다양하고 흥미로운 실제 연구 데이터로 예제를 만들어 화려한 기법 소개보다 정확한 개념과 과정을 설명함으로써 어려운 개념을 쉽게 이해할 수 있게 한다.
이 책은 실제로 데이터를 사용하고자 하는 독자를 대상으로 한다. 기계 학습을 조금 알고 있지만 R을 한 번도 사용하지 않았거나, R에 대해 조금은 알지만 기계 학습은 잘 모르는 초보자를 대상으로 한다. 두 경우 모두 이 책을 통해 독자가 빠르게 학습하고 적용할 수 있게 한다.
기계 학습에 적용할 데이터 준비를 위한 R 사용, R을 활용한 데이터 탐험과 시각화, 최근접 이웃 기법을 이용한 데이터 분류, 데이터 분류를 위한 베이지안 기법 학습, 결정 트리, 규칙, 서포트 벡터 머신을 사용한 값 예측, 선형 회귀를 이용한 수치 값 예측 등을 다루고 있다.
★ 요약 ★
이 책은 R이 제공하는 다양한 확률, 통계 기법을 모두 사용할 수 있을 뿐만 아니라 사용법도 쉽기 때문에 누구나 데이터를 분석하고 예측할 수 있게 한다. 손쉬운 CRAN을 통해 라이브러리를 설치는 다양한 라이브러리가 필요한 기계 학습에 매우 적합하다. 저자는 다양하고 흥미로운 실제 연구 데이터로 예제를 만들어 화려한 기법 소개보다 정확한 개념과 과정을 설명함으로써 어려운 개념을 쉽게 이해할 수 있게 한다.
★ 이 책에서 다루는 내용 ★
■ 기계 학습에 적용할 데이터 준비를 위한 R 사용
■ R을 활용한 데이터 탐험과 시각화
■ 최근접 이웃 기법을 이용한 데이터 분류
■ 데이터 분류를 위한 베이지안 기법 학습
■ 결정 트리, 규칙, 서포트 벡터 머신을 사용한 값 예측
■ 선형 회귀를 이용한 수치 값 예측
■ 신경망을 이용한 데이터 모델화
■ 장바구니 분석을 위한 연관 규칙을 사용한 패턴 찾기
■ 분할을 위한 데이터를 군집화하기
★ 이 책의 대상 독자 ★
이 책은 실제로 데이터를 사용하고자 하는 독자를 대상으로 한다. 기계 학습을 조금 알고 있지만 R을 한 번도 사용하지 않았거나, R에 대해 조금은 알지만 기계 학습은 잘 모르는 초보자를 대상으로 한다. 두 경우 모두 이 책을 통해 독자가 빠르게 학습하고 적용할 수 있게 한다. 기본적인 수학과 프로그래밍에 대한 친근함이 있으면 좋지만, 꼭 필요하지는 않다. 중요한 것은 호기심이다.
★ 이 책의 구성 ★
1장, '기계 학습 소개'에서는 용어와 기계 학습기를 구별하고 정의하는 개념을 소개한다. 기계 학습 작업과 적절한 알고리즘을 선정하기 위한 기법도 알려준다.
2장, '데이터 관리와 이해'에서는 R로 데이터를 가공해보면서 데이터를 로딩하고, 탐구하고, 이해하기 위해 데이터 구조와 프로시저를 사용한다.
3장, '게으른 학습: 최근접 이웃을 사용한 분류'에서는 첫 번째 기계 학습 작업인 악성 암 예제를 식별하기 위해, 단순하지만 강력한 학습 알고리즘을 적용하고 어떻게 작동하지 배운다.
4장 '확률론적 학습: 나이브 베이즈를 사용한 분류'에서는 최신 스팸 필터링 시스템에 사용하는 확률의 기본 개념을 알아본다. 자신만의 스팸 필터를 만드는 과정에서 텍스트 마이닝의 기본을 배운다.
5장, '분할 정복: 결정 트리와 규칙을 사용한 분류'에서는 정확하고 쉽게 설명할 수 있는 예측의 학습 알고리즘을 살펴본다. 이런 기법은 결정 투명성이 중요한 작업에 적용한다.
6장, '수치 데이터 예측: 회귀 기법'에서는 수치 예측을 할 수 있는 기계 학습 알고리즘을 소개한다. 이 기법은 통계 분야에 포함되기 때문에 수치 관계를 이해해야 하는 기본적인 메트릭(Metric)을 배운다.
7장, '블랙박스 기법: 신경망과 서포트 벡터 머신'에서는 극단적으로 복잡하지만 강력한 기계 학습을 다룬다. 수학 관련 지식은 부담스럽지만, 짧은 시간 내에 내부 작동을 설명하는 예제를 통해 작동 방법을 알아보자.
8장, '패턴 검색: 연관 규칙을 사용한 장바구니 분석'에서는 소매업계에서 사용하는 추천 시스템에 대한 알고리즘을 알아본다. 구매자 자신보다 소비 습관을 잘 아는 판매자에게 놀란 적이 있다면 그 비밀을 8장에서 알려준다.
9장, '데이터 그룹 검색: k 평균을 이용한 군집화'에서는 관련된 아이템의 군집(cluster)에 넣는 과정을 살펴본다. 웹 기반 커뮤니티 내에서 프로파일의 일부를 찾기 위해 이 알고리즘을 사용한다.
10장, '모델 성능 평가'에서는 기계 학습 프로젝트의 성과를 측정하는 정보를 제공한다. 미래 데이터에 대한 학습기의 성능에 대한 믿을 만한 측정 방식을 알아본다.
11장, '모델 성능 향상'에서는 기계 학습 경쟁의 우승 팀이 사용한 기법을 알려 준다. 경쟁에 도전하거나 데이터를 최대한 활용하고자 한다면 이런 기법을 꼭 알고 있어야 한다.
12장, '특화된 기계 학습 주제'에서는 기계 학습의 최신 정보를 알아본다. 빅데이터를 R에서 빠르게 사용할 수 있는 기법을 다뤄 R로 최대한 잘 사용할 수 있게 한다.
★ 저자 서문 ★
기계 학습 그 중심에는 정보를 실행할 수 있는 지식으로 변환하는 알고리즘이 연관돼 있다. 이런 사실은 기계 학습이 빅데이터 시대인 오늘날과 잘 맞음을 의미한다. 기계 학습 없이 정보의 거대한 흐름을 따라가지 못한다.
증가하는 R(크로스플랫폼, 무료 통계 프로그래밍 환경)의 중요성을 고려해 기계 학습을 시작할 최적기다. R은 강력하며, 데이터에서 통찰력을 얻을 수 있는 배우기 쉬운 도구를 제공한다.
반드시 이해해야 하는 기본적인 이론과 더불어 하나씩 직접 예제를 만들어본다. 이 책은 여러분의 프로젝트에 기계 학습을 적용할 때 필요한 모든 지식을 알려준다.
Information Provided By: :

Author Introduction
브레트 란츠(지은이)
혁신적인 데이터 기법을 이용해 인간의 행동을 이해하고자 10년 이상을 연구했다. 숙련된 사회학자로서 10대의 소셜 네트워크 웹 사이트 프로파일의 대규모 데이터베이스를 연구하면서 처음으로 머신러닝에 매료됐다. 데이터캠프(DataCamp)의 강사이자 세계적인 머신러닝 콘퍼런스와 워크숍의 강연자이기도 하다. 또한 스포츠의 데이터 과학 응용, 자율 주행, 외국어 학습, 패션에 열정적이며 언젠가 이러한 지식을 자신의 블로그(dataspelunking.com)에서 공유하고자 한다.
전철욱(옮긴이)
웹의 개방성, 파이썬의 기민성, 기계 학습의 예측성을 좋아한다. 공익을 위한 재능을 만들고자 노력 중이다. 호주에서 여우 세 마리에게 잡혀 살고 있다. 에이콘출판사의 『파이썬과 기계 학습』(2015), 『Julia 프로그래밍』(2015), 『Building Machine Learning Systems with Python 한국어판 (개정판)』(2015)과 『R을 활용한 기계 학습』(2014)을 번역했다.

Table of Contents
1장 기계 학습 소개 __기계 학습의 기원 __기계 학습의 사용과 남용 ____윤리성 고려 __기계는 어떻게 학습하는가? ____추상화와 지식의 표현성 ____일반화 ____학습 성공하기 __데이터에 기계 학습을 적용하는 단계 __기계 학습 알고리즘 선택 ____입력 데이터에 대한 고려 ____기계 학습 알고리즘의 종류에 대한 의견 ____데이터에 맞는 적당한 알고리즘 선정 __기계 학습을 위한 R 사용 ____R 패키지 설치와 로딩 ________R 패키지 설치 ________point-and-click 인터페이스로 패키지 설치 ________R 패키지 로드 __정리 2장 데이터 관리와 이해 __R의 데이터 구조 __벡터 __팩터 ____리스트 ____데이터 프레임 ____매트릭스와 어레이 __R과 데이터 관리 ____R 데이터 구조로 로드와 저장 ____CSV 파일의 데이터 임포트와 저장 ____SQL 데이터베이스로부터 데이터 임포트 __데이터 이해와 탐험 ____데이터 구조 살펴보기 ____수치 변수 살펴보기 ______중심 경향 측정: 평균과 중앙값 ______퍼짐 측정: 사분위수와 5개 수의 요약 ______수치 변수 시각화: boxplots ______수치 변수 시각화: 히스토그램 ______수치 데이터의 이해: 단일 분포와 정규 분포 ______퍼짐 측정: 분산과 표준 편차 ____범주형 변수 살펴보기 ______중심 경향 측정: 최빈값 ____변수 사이 관계 살펴보기 ______관계 시각화: 산점도 ______관계 살펴보기: 이원 교차표 __정리 3장 게으른 학습: 최근접 이웃을 사용한 분류 __최근접 이웃을 사용한 분류의 이해 ____kNN 알고리즘 ______거리 계산 ______적당한 k 선택 ______kNN을 사용하기 위한 데이터 준비 ____왜 kNN 알고리즘은 게으른가? __kNN 알고리즘과 유방암 진찰 ____1단계: 데이터 수집 ____2단계: 데이터 준비와 탐구 ______변환: 수치 데이터 정규화하기 ______데이터 전처리: 훈련과 테스트 데이터 만들기 ____3단계: 데이터에 적용해 모델 훈련 ____4단계: 모델 성능 평가 ____5단계: 모델 성능 높이기 ______변환: z 점수 표준화 ______k의 대안적인 값 테스트 __정리 4장 확률론적 학습: 나이브 베이즈를 사용한 분류 __나이브 베이즈 이해 ____베이지안 기법의 기본적인 개념 ______확률 ______조건부 확률 ______베이즈 이론과 조건 확률 ____나이브 베이즈 알고리즘 ______나이브 베이즈 분류 ______라플라스 추정기 ______나이브 베이즈와 수치 속성 사용 ______예제: 나이브 베이즈로 핸드폰 스팸 제거 ____1단계: 데이터 모으기 ____2단계: 데이터 준비와 탐구 ____데이터 준비: 분석을 위한 텍스트 데이터 처리 ______데이터 준비: 훈련과 테스트 데이터셋 생성 ______텍스트 데이터 시각화: 단어 클라우드 ______데이터 준비: 빈도 단어에 대한 지표 속성 생성 ____3단계: 데이터를 적용해 모델 훈련 ____4단계: 모델 성능 평가 ____5단계: 모델 성능 향상 __정리 5장 분할 정복: 결정 트리와 규칙을 사용한 분류 __결정 트리 이해 ____나누어 정복하기 ____C5.0 결정 트리 알고리즘 ______최적의 구분 선택 ______결정 트리 가지치기 __예제: C5.0 결정 트리를 사용한 위험 은행 대출 확인 ____1단계: 데이터 수집 ____2단계: 데이터 준비와 탐구 ______데이터 준비: 임의의 훈련 데이터와 테스트 데이터 생성 ____3단계: 데이터에 대한 모델 훈련 ____4단계: 모델 성능 평가 ____5단계: 모델의 성능 향상 ______결정 트리의 정확도 향상 ______다른 것보다 좀 더 고비용 실수를 만들기 __분류 규칙 이해 ____구분해 정복하기 ____One Rule 알고리즘 ____RIPPER 알고리즘 ____결정 트리로부터 규칙 __예제: 규칙 학습기로 독버섯 식별 ____1단계: 데이터 수집 ____2단계: 데이터 준비와 탐구 ____3단계: 데이터에 대해 모델 훈련 ____4단계: 모델 성능 평가 ____5단계: 모델 성능 향상 __정리 6장 수치 데이터 예측: 회귀 기법 __회귀 이해 ____단순 선형 회귀 ____정규 최소 제곱 추정 ____상관관계 ____다중 선형 회귀 __예제: 선형 회귀를 사용한 의료비 예측 ____1단계: 데이터 수집 ____2단계: 데이터 준비와 탐구 ______속성 간의 관계 살펴보기: 상관관계 매트릭스 ______속성 간의 관계 시각화: 산점도 매트릭스 ____3단계: 데이터로 모델 훈련 ____4단계: 모델 성능 평가 ____5단계: 모델 성능 향상 ______모델 명세: 비선형 관계 추가 ______변환: 수치 변수를 이진 지시자로 변환 ______모델 명세: 상호 작용 효과 추가 ______모두 다 적용: 향상된 회귀 모델 __회귀 트리와 모델 트리 이해 ____회귀에 트리 추가 __예제: 회귀 트리와 모델 트리를 사용해 와인의 품질 추정 ____1단계: 데이터 수집 ____2단계: 데이터 준비와 탐구 ____3단계: 데이터에 적용해 모델 훈련 ______결정 트리 시각화 ____4단계: 모델 성능 평가 ______평균 절대 오차를 이용한 성능 측정 ____5단계: 모델 성능 향상 __정리 7장 블랙박스 기법: 신경망과 서포트 벡터 머신 __신경망 이해 ____생물체에서 인공 뉴런으로 ____활성 함수 ____망 구성 ______층의 개수 ______정보 진행 방향 ______각 측의 노드 수 ____역전파로 신경망 훈련 __ANNS와 콘크리트의 내구력 모델화 ____1단계: 데이터 수집 ____2단계: 데이터 준비와 탐구 ____3단계: 데이터로 모델 훈련 ____4단계: 모델 성능 평가 ____5단계: 모델 성능 향상 __서포트 벡터 머신 이해 ____초평면과 분류 ____최대 마진 찾기 ______선형적으로 구별 가능한 데이터의 경우 ______비선형적으로 구별 가능한 데이터의 경우 ____비선형 공간에서 커널 사용 __SVM으로 OCR 수행 ____1단계: 데이터 수집 ____2단계: 데이터 준비와 탐구 ____3단계: 데이터로 모델 훈련 ____4단계: 모델 성능 평가 ____5단계: 모델 성능 향상 __정리 8장 패턴 검색: 연관 규칙을 사용한 장바구니 분석 __연관 규칙 이해 ____연관 규칙 학습을 위한 아프리오리 알고리즘 ______규칙 흥미 측정: 지지도와 신뢰도 ______아프리오리 원칙과 규칙 집합 생성 __예제: 연관 규칙과 자주 구매하는 식료품 식별 ____1단계: 데이터 수집 ____2단계: 데이터 준비와 탐구 ______데이터 준비: 거래 데이터를 위한 희소 매트릭스 생성 ______제품 지지도 아이템 빈도 도식 시각화 ______거래 데이터 시각화: 희소 매트릭스를 도식화 ____3단계: 데이터로 모델 훈련 ____4단계: 모델 성능 평가 ____5단계: 모델 성능 향상 ______연관 규칙의 집합 정렬 ______연관 규칙의 부분집합 취하기 ______연관 규칙을 파일이나 데이터 프레임으로 저장 __정리 9장 이터의 그룹 검색: k 평균을 이용한 군집화 __군집화 이해 ____기계 학습 태스크로서 군집화 ____군집화를 위한 k 평균 알고리즘 ______군집 지정과 변경을 위한 거리 사용 ______군집의 적당한 개수 선택 ______k 평균을 이용한 10대 시장 영역 검색 ____1단계: 데이터 수집 ____2단계: 데이터 준비와 탐구 ______데이터 준비: 결측치에 대한 더미 코딩 ______데이터 준비: 결측치 대체 ____3단계: 데이터에 대한 모델 훈련 ____4단계: 모델 평가 ____5단계: 모델 성능 향상 __정리 10장 모델 성능 평가 __분류를 위한 성능 측정 ____R에서 분류 예측 데이터로 작업 ____혼돈 매트릭스 심층 학습 ____성능을 측정하기 위한 혼돈 매트릭스 사용 ____정확도를 넘어: 다른 성능 측정 ______카파 통계 ______민감도와 특이도 ______정밀도와 재현율 ______F 측정 ____성능 균형의 시각화 ______ROC 커브 ____미래 성능 추정 ______홀드아웃 기법 ______교차 검증 ______부트스트랩 샘플링 __정리 11장 모델 성능 향상 __좀 더 나은 성능을 위한 증권 모델 조절 ____자동화된 매개변수 조율을 위한 caret 사용 ______간단한 조절 모델 생성 ______조절 과정 변경 __메타 학습을 활용한 모델 성능 향상 ____앙상블 이해 ____배깅 ____부스팅 ____랜덤 포레스트 ______랜덤 포레스트 훈련 ______랜덤 포레스트 성능 평가 __정리 12장 특화된 기계 학습 주제 __특별한 데이터와 작업 ____RCurl 패키지로 웹에서 데이터 수집 ____XML 패키지로 XML 쓰고 읽기 ____rjson 패키지로 JSON 읽고 쓰기 ____xlsx을 사용해 마이크로소프트 엑셀 스프레드시트 읽고 쓰기 ____바이오인포매틱스 데이터로 작업 ____소셜 네트워크 데이터와 그래프 데이터로 작업 __R 성능 향상 ____매우 큰 데이터 관리 ____데이터 테이블(data.table)로 빠른 데이터 프레임 생성 ____ff로 디스크 기반 데이터 프레임 생성 ____bigmemory로 거대한 매트릭스 사용 __병렬 계산으로 빠른 학습 ____실행 시간 측정 ____foreach로 병렬 작업 ____멀티코어로 멀티태스킹 운영체제 사용 ____snow와 snowfall로 멀티워크스테이션과 네트워킹 ____맵리듀스와 하둡으로 병렬 클라우드 계산 __GPU 계산 __최적화된 기계 학습 배포 ____biglm으로 좀 더 큰 회귀 모델 생성 ____bigrf로 좀 더 크고 빠른 랜덤 포레스트 생성 ____caret과 병렬로 모델 훈련과 평가 __정리