HOME > Detail View

Detail View

R을 활용한 기계 학습 : 데이터 분석을 위한 머신 러닝 이론과 적용 (Loan 121 times)

Material type
단행본
Personal Author
Lantz, Brett 전철욱, 역
Title Statement
R을 활용한 기계 학습 : 데이터 분석을 위한 머신 러닝 이론과 적용 / 브레트 란츠 지음 ; 전철욱 옮김
Publication, Distribution, etc
의왕 :   에이콘,   2014  
Physical Medium
452 p. : 삽화, 도표 ; 23 cm
Series Statement
acorn+PACKT technical book
Varied Title
Machine learning with R : learn how to use R to apply powerful machine learning methods and gain an insight into real-world applications
ISBN
9788960776135
General Note
색인수록  
기술감수: 지아 리우(Jia Liu), 므자발라조 응웬야(Mzabalazo Z. Ngwenya), 아비나브 우파디야이(Abhinav Upadhyay)  
000 01093camcc2200301 c 4500
001 000045813027
005 20141112090517
007 ta
008 141015s2014 ggkad 001c kor
020 ▼a 9788960776135 ▼g 94000
035 ▼a (KERIS)BIB000013577329
040 ▼a 241050 ▼c 241050 ▼d 211009
041 1 ▼a kor ▼h eng
082 0 4 ▼a 006.31 ▼2 23
085 ▼a 006.31 ▼2 DDCK
090 ▼a 006.31 ▼b 2014
100 1 ▼a Lantz, Brett
245 1 0 ▼a R을 활용한 기계 학습 : ▼b 데이터 분석을 위한 머신 러닝 이론과 적용 / ▼d 브레트 란츠 지음 ; ▼e 전철욱 옮김
246 1 9 ▼a Machine learning with R : ▼b learn how to use R to apply powerful machine learning methods and gain an insight into real-world applications
260 ▼a 의왕 : ▼b 에이콘, ▼c 2014
300 ▼a 452 p. : ▼b 삽화, 도표 ; ▼c 23 cm
440 0 0 ▼a acorn+PACKT technical book
500 ▼a 색인수록
500 ▼a 기술감수: 지아 리우(Jia Liu), 므자발라조 응웬야(Mzabalazo Z. Ngwenya), 아비나브 우파디야이(Abhinav Upadhyay)
700 1 ▼a 전철욱, ▼e▼0 AUTH(211009)1319
900 1 0 ▼a 란츠, 브레트, ▼e
945 ▼a KLPA

No. Location Call Number Accession No. Availability Due Date Make a Reservation Service
No. 1 Location Main Library/Monographs(3F)/ Call Number 006.31 2014 Accession No. 111726258 Availability Available Due Date Make a Reservation Service B M
No. 2 Location Science & Engineering Library/Sci-Info(Stacks1)/ Call Number 006.31 2014 Accession No. 121231042 Availability Available Due Date Make a Reservation Service B M
No. 3 Location Science & Engineering Library/Sci-Info(Stacks1)/ Call Number 006.31 2014 Accession No. 121231920 Availability Available Due Date Make a Reservation Service B M
No. 4 Location Sejong Academic Information Center/Science & Technology/ Call Number 006.31 2014 Accession No. 151327169 Availability Available Due Date Make a Reservation Service B M
No. Location Call Number Accession No. Availability Due Date Make a Reservation Service
No. 1 Location Main Library/Monographs(3F)/ Call Number 006.31 2014 Accession No. 111726258 Availability Available Due Date Make a Reservation Service B M
No. Location Call Number Accession No. Availability Due Date Make a Reservation Service
No. 1 Location Science & Engineering Library/Sci-Info(Stacks1)/ Call Number 006.31 2014 Accession No. 121231042 Availability Available Due Date Make a Reservation Service B M
No. 2 Location Science & Engineering Library/Sci-Info(Stacks1)/ Call Number 006.31 2014 Accession No. 121231920 Availability Available Due Date Make a Reservation Service B M
No. Location Call Number Accession No. Availability Due Date Make a Reservation Service
No. 1 Location Sejong Academic Information Center/Science & Technology/ Call Number 006.31 2014 Accession No. 151327169 Availability Available Due Date Make a Reservation Service B M

Contents information

Book Introduction

acorn+PACKT 시리즈. 이 책은 R이 제공하는 다양한 확률, 통계 기법을 모두 사용할 수 있을 뿐만 아니라 사용법도 쉽기 때문에 누구나 데이터를 분석하고 예측할 수 있게 한다. 손쉬운 CRAN을 통해 라이브러리를 설치는 다양한 라이브러리가 필요한 기계 학습에 매우 적합하다. 저자는 다양하고 흥미로운 실제 연구 데이터로 예제를 만들어 화려한 기법 소개보다 정확한 개념과 과정을 설명함으로써 어려운 개념을 쉽게 이해할 수 있게 한다.

이 책은 실제로 데이터를 사용하고자 하는 독자를 대상으로 한다. 기계 학습을 조금 알고 있지만 R을 한 번도 사용하지 않았거나, R에 대해 조금은 알지만 기계 학습은 잘 모르는 초보자를 대상으로 한다. 두 경우 모두 이 책을 통해 독자가 빠르게 학습하고 적용할 수 있게 한다.

기계 학습에 적용할 데이터 준비를 위한 R 사용, R을 활용한 데이터 탐험과 시각화, 최근접 이웃 기법을 이용한 데이터 분류, 데이터 분류를 위한 베이지안 기법 학습, 결정 트리, 규칙, 서포트 벡터 머신을 사용한 값 예측, 선형 회귀를 이용한 수치 값 예측 등을 다루고 있다.

★ 요약 ★

이 책은 R이 제공하는 다양한 확률, 통계 기법을 모두 사용할 수 있을 뿐만 아니라 사용법도 쉽기 때문에 누구나 데이터를 분석하고 예측할 수 있게 한다. 손쉬운 CRAN을 통해 라이브러리를 설치는 다양한 라이브러리가 필요한 기계 학습에 매우 적합하다. 저자는 다양하고 흥미로운 실제 연구 데이터로 예제를 만들어 화려한 기법 소개보다 정확한 개념과 과정을 설명함으로써 어려운 개념을 쉽게 이해할 수 있게 한다.

★ 이 책에서 다루는 내용 ★

■ 기계 학습에 적용할 데이터 준비를 위한 R 사용
■ R을 활용한 데이터 탐험과 시각화
■ 최근접 이웃 기법을 이용한 데이터 분류
■ 데이터 분류를 위한 베이지안 기법 학습
■ 결정 트리, 규칙, 서포트 벡터 머신을 사용한 값 예측
■ 선형 회귀를 이용한 수치 값 예측
■ 신경망을 이용한 데이터 모델화
■ 장바구니 분석을 위한 연관 규칙을 사용한 패턴 찾기
■ 분할을 위한 데이터를 군집화하기

★ 이 책의 대상 독자 ★

이 책은 실제로 데이터를 사용하고자 하는 독자를 대상으로 한다. 기계 학습을 조금 알고 있지만 R을 한 번도 사용하지 않았거나, R에 대해 조금은 알지만 기계 학습은 잘 모르는 초보자를 대상으로 한다. 두 경우 모두 이 책을 통해 독자가 빠르게 학습하고 적용할 수 있게 한다. 기본적인 수학과 프로그래밍에 대한 친근함이 있으면 좋지만, 꼭 필요하지는 않다. 중요한 것은 호기심이다.

★ 이 책의 구성 ★

1장, '기계 학습 소개'에서는 용어와 기계 학습기를 구별하고 정의하는 개념을 소개한다. 기계 학습 작업과 적절한 알고리즘을 선정하기 위한 기법도 알려준다.

2장, '데이터 관리와 이해'에서는 R로 데이터를 가공해보면서 데이터를 로딩하고, 탐구하고, 이해하기 위해 데이터 구조와 프로시저를 사용한다.

3장, '게으른 학습: 최근접 이웃을 사용한 분류'에서는 첫 번째 기계 학습 작업인 악성 암 예제를 식별하기 위해, 단순하지만 강력한 학습 알고리즘을 적용하고 어떻게 작동하지 배운다.

4장 '확률론적 학습: 나이브 베이즈를 사용한 분류'에서는 최신 스팸 필터링 시스템에 사용하는 확률의 기본 개념을 알아본다. 자신만의 스팸 필터를 만드는 과정에서 텍스트 마이닝의 기본을 배운다.

5장, '분할 정복: 결정 트리와 규칙을 사용한 분류'에서는 정확하고 쉽게 설명할 수 있는 예측의 학습 알고리즘을 살펴본다. 이런 기법은 결정 투명성이 중요한 작업에 적용한다.

6장, '수치 데이터 예측: 회귀 기법'에서는 수치 예측을 할 수 있는 기계 학습 알고리즘을 소개한다. 이 기법은 통계 분야에 포함되기 때문에 수치 관계를 이해해야 하는 기본적인 메트릭(Metric)을 배운다.

7장, '블랙박스 기법: 신경망과 서포트 벡터 머신'에서는 극단적으로 복잡하지만 강력한 기계 학습을 다룬다. 수학 관련 지식은 부담스럽지만, 짧은 시간 내에 내부 작동을 설명하는 예제를 통해 작동 방법을 알아보자.

8장, '패턴 검색: 연관 규칙을 사용한 장바구니 분석'에서는 소매업계에서 사용하는 추천 시스템에 대한 알고리즘을 알아본다. 구매자 자신보다 소비 습관을 잘 아는 판매자에게 놀란 적이 있다면 그 비밀을 8장에서 알려준다.

9장, '데이터 그룹 검색: k 평균을 이용한 군집화'에서는 관련된 아이템의 군집(cluster)에 넣는 과정을 살펴본다. 웹 기반 커뮤니티 내에서 프로파일의 일부를 찾기 위해 이 알고리즘을 사용한다.

10장, '모델 성능 평가'에서는 기계 학습 프로젝트의 성과를 측정하는 정보를 제공한다. 미래 데이터에 대한 학습기의 성능에 대한 믿을 만한 측정 방식을 알아본다.

11장, '모델 성능 향상'에서는 기계 학습 경쟁의 우승 팀이 사용한 기법을 알려 준다. 경쟁에 도전하거나 데이터를 최대한 활용하고자 한다면 이런 기법을 꼭 알고 있어야 한다.

12장, '특화된 기계 학습 주제'에서는 기계 학습의 최신 정보를 알아본다. 빅데이터를 R에서 빠르게 사용할 수 있는 기법을 다뤄 R로 최대한 잘 사용할 수 있게 한다.

★ 저자 서문 ★

기계 학습 그 중심에는 정보를 실행할 수 있는 지식으로 변환하는 알고리즘이 연관돼 있다. 이런 사실은 기계 학습이 빅데이터 시대인 오늘날과 잘 맞음을 의미한다. 기계 학습 없이 정보의 거대한 흐름을 따라가지 못한다.

증가하는 R(크로스플랫폼, 무료 통계 프로그래밍 환경)의 중요성을 고려해 기계 학습을 시작할 최적기다. R은 강력하며, 데이터에서 통찰력을 얻을 수 있는 배우기 쉬운 도구를 제공한다.

반드시 이해해야 하는 기본적인 이론과 더불어 하나씩 직접 예제를 만들어본다. 이 책은 여러분의 프로젝트에 기계 학습을 적용할 때 필요한 모든 지식을 알려준다.


Information Provided By: : Aladin

Author Introduction

브레트 란츠(지은이)

혁신적인 데이터 기법을 이용해 인간의 행동을 이해하고자 10년 이상을 연구했다. 숙련된 사회학자로서 10대의 소셜 네트워크 웹 사이트 프로파일의 대규모 데이터베이스를 연구하면서 처음으로 머신러닝에 매료됐다. 데이터캠프(DataCamp)의 강사이자 세계적인 머신러닝 콘퍼런스와 워크숍의 강연자이기도 하다. 또한 스포츠의 데이터 과학 응용, 자율 주행, 외국어 학습, 패션에 열정적이며 언젠가 이러한 지식을 자신의 블로그(dataspelunking.com)에서 공유하고자 한다.

전철욱(옮긴이)

웹의 개방성, 파이썬의 기민성, 기계 학습의 예측성을 좋아한다. 공익을 위한 재능을 만들고자 노력 중이다. 호주에서 여우 세 마리에게 잡혀 살고 있다. 에이콘출판사의 『파이썬과 기계 학습』(2015), 『Julia 프로그래밍』(2015), 『Building Machine Learning Systems with Python 한국어판 (개정판)』(2015)과 『R을 활용한 기계 학습』(2014)을 번역했다.

Information Provided By: : Aladin

Table of Contents

1장 기계 학습 소개
__기계 학습의 기원
__기계 학습의 사용과 남용
____윤리성 고려
__기계는 어떻게 학습하는가?
____추상화와 지식의 표현성
____일반화
____학습 성공하기
__데이터에 기계 학습을 적용하는 단계
__기계 학습 알고리즘 선택
____입력 데이터에 대한 고려
____기계 학습 알고리즘의 종류에 대한 의견
____데이터에 맞는 적당한 알고리즘 선정
__기계 학습을 위한 R 사용
____R 패키지 설치와 로딩
________R 패키지 설치
________point-and-click 인터페이스로 패키지 설치
________R 패키지 로드
__정리
2장 데이터 관리와 이해
__R의 데이터 구조
__벡터
__팩터
____리스트
____데이터 프레임
____매트릭스와 어레이
__R과 데이터 관리
____R 데이터 구조로 로드와 저장
____CSV 파일의 데이터 임포트와 저장
____SQL 데이터베이스로부터 데이터 임포트
__데이터 이해와 탐험
____데이터 구조 살펴보기
____수치 변수 살펴보기
______중심 경향 측정: 평균과 중앙값
______퍼짐 측정: 사분위수와 5개 수의 요약
______수치 변수 시각화: boxplots
______수치 변수 시각화: 히스토그램
______수치 데이터의 이해: 단일 분포와 정규 분포
______퍼짐 측정: 분산과 표준 편차
____범주형 변수 살펴보기
______중심 경향 측정: 최빈값
____변수 사이 관계 살펴보기
______관계 시각화: 산점도
______관계 살펴보기: 이원 교차표
__정리

3장 게으른 학습: 최근접 이웃을 사용한 분류
__최근접 이웃을 사용한 분류의 이해
____kNN 알고리즘
______거리 계산
______적당한 k 선택
______kNN을 사용하기 위한 데이터 준비
____왜 kNN 알고리즘은 게으른가?
__kNN 알고리즘과 유방암 진찰
____1단계: 데이터 수집
____2단계: 데이터 준비와 탐구
______변환: 수치 데이터 정규화하기
______데이터 전처리: 훈련과 테스트 데이터 만들기
____3단계: 데이터에 적용해 모델 훈련
____4단계: 모델 성능 평가
____5단계: 모델 성능 높이기
______변환: z 점수 표준화
______k의 대안적인 값 테스트
__정리

4장 확률론적 학습: 나이브 베이즈를 사용한 분류
__나이브 베이즈 이해
____베이지안 기법의 기본적인 개념
______확률
______조건부 확률
______베이즈 이론과 조건 확률
____나이브 베이즈 알고리즘
______나이브 베이즈 분류
______라플라스 추정기
______나이브 베이즈와 수치 속성 사용
______예제: 나이브 베이즈로 핸드폰 스팸 제거
____1단계: 데이터 모으기
____2단계: 데이터 준비와 탐구
____데이터 준비: 분석을 위한 텍스트 데이터 처리
______데이터 준비: 훈련과 테스트 데이터셋 생성
______텍스트 데이터 시각화: 단어 클라우드
______데이터 준비: 빈도 단어에 대한 지표 속성 생성
____3단계: 데이터를 적용해 모델 훈련
____4단계: 모델 성능 평가
____5단계: 모델 성능 향상
__정리

5장 분할 정복: 결정 트리와 규칙을 사용한 분류
__결정 트리 이해
____나누어 정복하기
____C5.0 결정 트리 알고리즘
______최적의 구분 선택
______결정 트리 가지치기
__예제: C5.0 결정 트리를 사용한 위험 은행 대출 확인
____1단계: 데이터 수집
____2단계: 데이터 준비와 탐구
______데이터 준비: 임의의 훈련 데이터와 테스트 데이터 생성
____3단계: 데이터에 대한 모델 훈련
____4단계: 모델 성능 평가
____5단계: 모델의 성능 향상
______결정 트리의 정확도 향상
______다른 것보다 좀 더 고비용 실수를 만들기
__분류 규칙 이해
____구분해 정복하기
____One Rule 알고리즘
____RIPPER 알고리즘
____결정 트리로부터 규칙
__예제: 규칙 학습기로 독버섯 식별
____1단계: 데이터 수집
____2단계: 데이터 준비와 탐구
____3단계: 데이터에 대해 모델 훈련
____4단계: 모델 성능 평가
____5단계: 모델 성능 향상
__정리

6장 수치 데이터 예측: 회귀 기법
__회귀 이해
____단순 선형 회귀
____정규 최소 제곱 추정
____상관관계
____다중 선형 회귀
__예제: 선형 회귀를 사용한 의료비 예측
____1단계: 데이터 수집
____2단계: 데이터 준비와 탐구
______속성 간의 관계 살펴보기: 상관관계 매트릭스
______속성 간의 관계 시각화: 산점도 매트릭스
____3단계: 데이터로 모델 훈련
____4단계: 모델 성능 평가
____5단계: 모델 성능 향상
______모델 명세: 비선형 관계 추가
______변환: 수치 변수를 이진 지시자로 변환
______모델 명세: 상호 작용 효과 추가
______모두 다 적용: 향상된 회귀 모델
__회귀 트리와 모델 트리 이해
____회귀에 트리 추가
__예제: 회귀 트리와 모델 트리를 사용해 와인의 품질 추정
____1단계: 데이터 수집
____2단계: 데이터 준비와 탐구
____3단계: 데이터에 적용해 모델 훈련
______결정 트리 시각화
____4단계: 모델 성능 평가
______평균 절대 오차를 이용한 성능 측정
____5단계: 모델 성능 향상
__정리

7장 블랙박스 기법: 신경망과 서포트 벡터 머신
__신경망 이해
____생물체에서 인공 뉴런으로
____활성 함수
____망 구성
______층의 개수
______정보 진행 방향
______각 측의 노드 수
____역전파로 신경망 훈련
__ANNS와 콘크리트의 내구력 모델화
____1단계: 데이터 수집
____2단계: 데이터 준비와 탐구
____3단계: 데이터로 모델 훈련
____4단계: 모델 성능 평가
____5단계: 모델 성능 향상
__서포트 벡터 머신 이해
____초평면과 분류
____최대 마진 찾기
______선형적으로 구별 가능한 데이터의 경우
______비선형적으로 구별 가능한 데이터의 경우
____비선형 공간에서 커널 사용
__SVM으로 OCR 수행
____1단계: 데이터 수집
____2단계: 데이터 준비와 탐구
____3단계: 데이터로 모델 훈련
____4단계: 모델 성능 평가
____5단계: 모델 성능 향상
__정리

8장 패턴 검색: 연관 규칙을 사용한 장바구니 분석
__연관 규칙 이해
____연관 규칙 학습을 위한 아프리오리 알고리즘
______규칙 흥미 측정: 지지도와 신뢰도
______아프리오리 원칙과 규칙 집합 생성
__예제: 연관 규칙과 자주 구매하는 식료품 식별
____1단계: 데이터 수집
____2단계: 데이터 준비와 탐구
______데이터 준비: 거래 데이터를 위한 희소 매트릭스 생성
______제품 지지도 아이템 빈도 도식 시각화
______거래 데이터 시각화: 희소 매트릭스를 도식화
____3단계: 데이터로 모델 훈련
____4단계: 모델 성능 평가
____5단계: 모델 성능 향상
______연관 규칙의 집합 정렬
______연관 규칙의 부분집합 취하기
______연관 규칙을 파일이나 데이터 프레임으로 저장
__정리

9장 이터의 그룹 검색: k 평균을 이용한 군집화
__군집화 이해
____기계 학습 태스크로서 군집화
____군집화를 위한 k 평균 알고리즘
______군집 지정과 변경을 위한 거리 사용
______군집의 적당한 개수 선택
______k 평균을 이용한 10대 시장 영역 검색
____1단계: 데이터 수집
____2단계: 데이터 준비와 탐구
______데이터 준비: 결측치에 대한 더미 코딩
______데이터 준비: 결측치 대체
____3단계: 데이터에 대한 모델 훈련
____4단계: 모델 평가
____5단계: 모델 성능 향상
__정리

10장 모델 성능 평가
__분류를 위한 성능 측정
____R에서 분류 예측 데이터로 작업
____혼돈 매트릭스 심층 학습
____성능을 측정하기 위한 혼돈 매트릭스 사용
____정확도를 넘어: 다른 성능 측정
______카파 통계
______민감도와 특이도
______정밀도와 재현율
______F 측정
____성능 균형의 시각화
______ROC 커브
____미래 성능 추정
______홀드아웃 기법
______교차 검증
______부트스트랩 샘플링
__정리

11장 모델 성능 향상
__좀 더 나은 성능을 위한 증권 모델 조절
____자동화된 매개변수 조율을 위한 caret 사용
______간단한 조절 모델 생성
______조절 과정 변경
__메타 학습을 활용한 모델 성능 향상
____앙상블 이해
____배깅
____부스팅
____랜덤 포레스트
______랜덤 포레스트 훈련
______랜덤 포레스트 성능 평가
__정리

12장 특화된 기계 학습 주제
__특별한 데이터와 작업
____RCurl 패키지로 웹에서 데이터 수집
____XML 패키지로 XML 쓰고 읽기
____rjson 패키지로 JSON 읽고 쓰기
____xlsx을 사용해 마이크로소프트 엑셀 스프레드시트 읽고 쓰기
____바이오인포매틱스 데이터로 작업
____소셜 네트워크 데이터와 그래프 데이터로 작업
__R 성능 향상
____매우 큰 데이터 관리
____데이터 테이블(data.table)로 빠른 데이터 프레임 생성
____ff로 디스크 기반 데이터 프레임 생성
____bigmemory로 거대한 매트릭스 사용
__병렬 계산으로 빠른 학습
____실행 시간 측정
____foreach로 병렬 작업
____멀티코어로 멀티태스킹 운영체제 사용
____snow와 snowfall로 멀티워크스테이션과 네트워킹
____맵리듀스와 하둡으로 병렬 클라우드 계산
__GPU 계산
__최적화된 기계 학습 배포
____biglm으로 좀 더 큰 회귀 모델 생성
____bigrf로 좀 더 크고 빠른 랜덤 포레스트 생성
____caret과 병렬로 모델 훈련과 평가
__정리

New Arrivals Books in Related Fields

Deisenroth, Marc Peter (2023)