HOME > 상세정보

상세정보

R로 하는 빅데이터 분석 : 데이터 전처리와 시각화 : 개념적 기초에서 심층 활용까지 / 2판(개정판)

R로 하는 빅데이터 분석 : 데이터 전처리와 시각화 : 개념적 기초에서 심층 활용까지 / 2판(개정판) (12회 대출)

자료유형
단행본
개인저자
김권현, 1977-
서명 / 저자사항
R로 하는 빅데이터 분석 : 데이터 전처리와 시각화 : 개념적 기초에서 심층 활용까지 / 김권현 지음
판사항
2판(개정판)
발행사항
서울 :   숨은원리,   2020  
형태사항
297 p. : 삽화 ; 25 cm
ISBN
9791196014490
일반주기
부록: A. 수 표기 방법, B. dplyr을 SQL로 번역하기, C. 화일과 디렉토리 관련 함수들 외  
000 00000cam c2200205 c 4500
001 000046019881
005 20230210092023
007 ta
008 200305s2020 ulka 000c kor
020 ▼a 9791196014490 ▼g 93000
040 ▼a 211009 ▼c 211009 ▼d 211009
082 0 4 ▼a 519.50285 ▼2 23
085 ▼a 519.50285 ▼2 DDCK
090 ▼a 519.50285 ▼b 2020z3
100 1 ▼a 김권현, ▼d 1977- ▼0 AUTH(211009)96385
245 1 0 ▼a R로 하는 빅데이터 분석 : ▼b 데이터 전처리와 시각화 : ▼b 개념적 기초에서 심층 활용까지 / ▼d 김권현 지음
250 ▼a 2판(개정판)
260 ▼a 서울 : ▼b 숨은원리, ▼c 2020
300 ▼a 297 p. : ▼b 삽화 ; ▼c 25 cm
500 ▼a 부록: A. 수 표기 방법, B. dplyr을 SQL로 번역하기, C. 화일과 디렉토리 관련 함수들 외

No. 소장처 청구기호 등록번호 도서상태 반납예정일 예약 서비스
No. 1 소장처 중앙도서관/제2자료실(3층)/ 청구기호 519.50285 2020z3 등록번호 111838100 도서상태 대출가능 반납예정일 예약 서비스 B M
No. 2 소장처 세종학술정보원/과학기술실(5층)/ 청구기호 519.50285 2020z3 등록번호 151349493 도서상태 대출가능 반납예정일 예약 서비스 B M
No. 소장처 청구기호 등록번호 도서상태 반납예정일 예약 서비스
No. 1 소장처 중앙도서관/제2자료실(3층)/ 청구기호 519.50285 2020z3 등록번호 111838100 도서상태 대출가능 반납예정일 예약 서비스 B M
No. 소장처 청구기호 등록번호 도서상태 반납예정일 예약 서비스
No. 1 소장처 세종학술정보원/과학기술실(5층)/ 청구기호 519.50285 2020z3 등록번호 151349493 도서상태 대출가능 반납예정일 예약 서비스 B M

컨텐츠정보

책소개

어느 정도 프로그래밍 경험이 있는 독자를 대상으로, 오픈 소스 데이터 분석 도구인 R을 활용하여 데이터를 불러들이고, 가공하고, 시각화하는 방법을 설명하는 책이다. 특정한 기능을 하는 함수들을 설명하기 전에 데이터 전처리의 목적과 기능에 대한 개념적인 이해를 우선 할 수 있도록 도와준다.

그리고 날짜시간 자료형, 문자열 자료형, 정규표현식 등에 대한 원리와 응용 방법을 자세하게 설명하여 복잡한 전처리 과정에서도 논리적 오류를 범하지 않도록 한다. 분산처리 없이 빅데이터 처리를 할 수 있는 마지막 보류인 데이터테이블을 dplyr 패키지의 함수와 비교하여 이해를 도왔고,ggplot2의 설명에서는 플롯의 수많은 옵션을 정하는 방법을 한 눈에 보기 싶게 보여준다. 그 밖에도 부록으로 RStudio의 치트시트를 수록하였다.

2019년 3월, 1판. 2020년 1월, 개정판 발간!

제 1판에 있었던 실수와 오류를 수정하고, ‘날짜와 시간’, ‘수 표기 방법’ 등 새로운 자료를 추가 보완하였습니다. 개정판에서 추가된 내용은 다음과 같습니다.

● 집단별 적용 함수 mapply, sweep, rapply 추가
● 배열 관련 함수 총정리
● dplyr 최신 버전 반영
● SQL 관련 함수 소개
● 파일과 디렉토리 관련 함수 총정리

출판사 서평

이 책은 어느 정도 프로그래밍 경험이 있는 독자를 대상으로, 오픈 소스 데이터 분석 도구인 R을 활용하여 데이터를 불러들이고, 가공하고, 시각화하는 방법을 설명한다. 이 책은 시중의 책들과 달리 특정한 기능을 하는 함수들을 설명하기 전에 데이터 전처리의 목적과 기능에 대한 개념적인 이해를 우선 할 수 있도록 도와준다. 그리고 날짜시간 자료형, 문자열 자료형, 정규표현식 등에 대한 원리와 응용 방법을 자세하게 설명하여 복잡한 전처리 과정에서도 논리적 오류를 범하지 않도록 한다. 분산처리 없이 빅데이터 처리를 할 수 있는 마지막 보류인 데이터테이블을 dplyr 패키지의 함수와 비교하여 이해를 도왔고,ggplot2의 설명에서는 플롯의 수많은 옵션을 정하는 방법을 한 눈에 보기 싶게 보여준다. 그 밖에도 부록으로 RStudio의 치트시트를 수록하였다. 어느 정도 R에 익숙한 독자들에게도 R의 데이터 전처리와 시각화에 대해 좀 더 깊이 알 수 있게 하였다. 레퍼런스 북으로도 손색이 없다.

특이 사항

● R 최신 버전 3.6.1(2019-07-05) 반영
● 빅데이터 분석을 위한 최선의 선택-data.table 패키지(최신버전 1.12.6)에 대한 설명 수록
● RStudio의 ggplot2 등 패키지 치트시트(cheatsheet) 수록
● 백과사전식의 나열이 아니라 개념 중심의 체계적인 이해 중시
● 좀 더 테크니컬한 심층 활용 방법과 오류를 사전에 방지하는 방법 설명
● 각종 참고 자료 및 표 수록
● 다양한 원서의 내용 종합
- Spector(2008). Data Manipulation with R.
- Kabacoff(2015). R in Action: Data Analysis and Graphics with R
- Wickham(2016). ggplot2: Elegant Graphics for Data Analysis.
- Lander(2017). R for Everyone: Advanced Analytics and Graphics.
- Wickham & Grolemund(2017). R for Data Science.
- Van Der Loo & De Jong(2018). Statistical Data Cleaning with Applications in R.
● ds.sumeun.org 홈페이지 운영


정보제공 : Aladin

저자소개

김권현(지은이)

서울대학교 인지과학 박사, 서울대학교 물리학 학사 출신으로 서울대학교 사회과학원 방법론 컨설턴트, 서울대학교 사회과학원 R 강의, 서강대학교, 국민대학교 등에서의 강의경험과 회사 경험을 토대로 책을 썼다. R 패키지 mirt의 공헌자이며 ‘기초 통계학의 숨은 원리’, ‘수학의 숨은 원리’ 등의 저자이기도 하다. ● 서울대학교 인지과학 박사 ● 서울대학교 물리학 학사 ● 서울대학교 사회과학원 방법론 컨설턴트 ● 서울대학교 사회과학원 R 강의 ● 서강대학교, 국민대학교 등 강의(심리통계, 분석프로그래밍) ● R 패키지 mirt의 공헌자 ● ‘기초 통계학의 숨은 원리’, ‘수학의 숨은 원리’ 등의 저자 ● 2019년 법학적성시험 분석(법학전문대학원협의회 의뢰)

정보제공 : Aladin

목차

서문 1

1 들어가기 3
1.1 R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2 R의 패키지(Packages) 5
2.1 패키지 설치 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2 패키지 관련 정보 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.3 패키지 불러오기/확인하기/제거하기 . . . . . . . . . . . . . . . . . . 7
2.4 패키지 관리하기 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.5 중복되는 함수와 변수 . . . . . . . . . . . . . . . . . . . . . . . . . . 8

3 R의 변수, 자료형, 연산/함수 9
3.1 R의 변수 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3.2 R의 데이터 타입(자료형) . . . . . . . . . . . . . . . . . . . . . . . . 13
3.3 연산(Operations)과 함수(Functions) . . . . . . . . . . . . . . . . . 16
3.4 특별한 값 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

4 데이터 구조 25
4.1 벡터(Vector) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.2 행렬(matrix), 배열(array), 데이터프레임(data.frame), 리스트(list) 37
4.3 행렬, 배열, 데이터프레임, 리스트의 부분선택하기 . . . . . . . . . . . . 42
4.4 행렬, 배열, 데이터프레임, 리스트 수정하기 . . . . . . . . . . . . . . . 46
4.5 CRUD(Create, Read, Update, Delete) . . . . . . . . . . . . . . . 47
4.6 3차 이상의 다차원 배열 . . . . . . . . . . . . . . . . . . . . . . . . . 49

5 dplyr 패키지를 활용한 데이터 가공 57

5.1 magrittr의 파이프 연산자 . . . . . . . . . . . . . . . . . . . . . . . 57
5.2 dplyr의 방식: 부분 선택(Subsetting) . . . . . . . . . . . . . . . . . 60
5.3 dplyr의 방식 : 수정 . . . . . . . . . . . . . . . . . . . . . . . . . . 67
5.4 dplyr의 기타 편의 기능 . . . . . . . . . . . . . . . . . . . . . . . . . 73

6 날짜와 시간(Date and Time) 77
6.1 R의 날짜와 시간 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
6.2 날짜의 표기 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
6.3 날짜 표기 변환 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
6.4 날짜시간 표기 인식 . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
6.5 날짜, 시간 연산 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
6.6 날짜(시간)의 특정한 정보 참조 . . . . . . . . . . . . . . . . . . . . . 86
6.7 날짜(시간) 갱신 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
6.8 활용 예 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

7 팩터 자료형 91
7.1 팩터형의 중요성 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
7.2 데이터 전처리에 있어서 팩터형 . . . . . . . . . . . . . . . . . . . . . 92
7.3 forcats 패키지 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

8 R로 데이터 읽어오기 97
8.1 R 내장 데이터 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
8.2 들어가기 : write.table/read.table, save/load . . . . . . . . . . . 98
8.3 텍스트로 저장된 데이터 화일 읽기 . . . . . . . . . . . . . . . . . . . 99
8.4 EXCEL 화일 읽기 . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
8.5 그 밖의 통계 프로그램 데이터 화일 . . . . . . . . . . . . . . . . . . . 107

9 데이터 가공 109
9.1 집단별로 함수 적용하기 . . . . . . . . . . . . . . . . . . . . . . . . . 110
9.2 여러 데이터 프레임 합치기 . . . . . . . . . . . . . . . . . . . . . . . 118
9.3 세로형/가로형 변환 . . . . . . . . . . . . . . . . . . . . . . . . . . . 124

10 패키지 데이터테이블(data.table) 129
10.1 package:dplyr과 package:data.table의 비교 . . . . . . . . . . . . . 129
10.2 data.table의 키(key) 활용하기 . . . . . . . . . . . . . . . . . . . . 145
10.3 data.table을 활용한 병합 . . . . . . . . . . . . . . . . . . . . . . . 149
10.4 그 밖의 특수한 기호 : .SD, .GRP, .N, .I, .BY, .EACHI, .. . . . . . . . . 158

10.5 데이터테이블 종합 . . . . . . . . . . . . . . . . . . . . . . . . . . . 165

11 문자열(character) 167
11.1 인코딩 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
11.2 대표적인 인코딩 방법 . . . . . . . . . . . . . . . . . . . . . . . . . . 168
11.3 인코딩 방법의 종류 . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
11.4 R에서 인코딩 다루기 . . . . . . . . . . . . . . . . . . . . . . . . . . 169
11.5 R에서 문자열 입력 . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
11.6 유니코드 정규화(Normalization) . . . . . . . . . . . . . . . . . . . 173
11.7 문자열의 정렬 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
11.8 문자열을 다루는 함수들 . . . . . . . . . . . . . . . . . . . . . . . . . 175
11.9 패키지 stringr을 활용한 문자열 관리 . . . . . . . . . . . . . . . . . 183

12 정규표현식 185
12.1 R과 정규표현식 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
12.2 확장정규표현식(ERE; Extended Regular Expressions) . . . . . . . 186
12.3 Perl 호환 정규표현식 . . . . . . . . . . . . . . . . . . . . . . . . . . 196
12.4 패키지 stringr, stringi . . . . . . . . . . . . . . . . . . . . . . . . 198
12.5 stringi 패키지와 정규표현식을 활용한 문자열 데이터 가공 . . . . . . . 199

13 흐름 제어와 함수 201
13.1 제어문: 조건과 반복 . . . . . . . . . . . . . . . . . . . . . . . . . . 201
13.2 함수 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208

14 기술 통계량 215
14.1 1변수 기술 통계량 . . . . . . . . . . . . . . . . . . . . . . . . . . . 215
14.2 데이터 프레임의 모든 변수(컬럼)에 대해 요약통계치 구하기 . . . . . . 218

15 간편 시각화 221
15.1 간편 시각화의 예 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222

16 ggplot2 227
16.1 들어가기 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227
16.2 시각적 맵핑(Aesthetic mapping) . . . . . . . . . . . . . . . . . . . 229
16.3 기하학적 대상(geom) . . . . . . . . . . . . . . . . . . . . . . . . . . 248
16.4 보조선(Auxillary lines) . . . . . . . . . . . . . . . . . . . . . . . . 257
16.5 좌표계(Coordinate system) . . . . . . . . . . . . . . . . . . . . . . 259

16.6 Coordinate system . . . . . . . . . . . . . . . . . . . . . . . . . . 259
16.7 범례(Legends) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265
16.8 제목과 테마(Title and Theme) . . . . . . . . . . . . . . . . . . . . 267
16.9 결과 정리 및 저장 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273
16.10ggplot2(gg = Grammar of Graphics) 총정리 . . . . . . . . . . . . 275

17 연습문제 해답 279
데이터 구조 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279
데이터 불러들이기 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 280
제어와 함수 I. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282

R에서 하는 벡터/행렬 연산 283
벡터연산 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 283
한 행렬 연산 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 283
두 행렬의 연산 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 284
선형(행렬) 대수 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 284

A 수 표기 방법 287
A.1 국제표준 ISO 80000-1 . . . . . . . . . . . . . . . . . . . . . . . . . 287
A.2 한글 맞춤법 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 287
A.3 다른 나라의 수 표기 . . . . . . . . . . . . . . . . . . . . . . . . . . . 288
A.4 R에서 수 읽기 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 288

B dplyr을 SQL로 번역하기 289
B.1 수기 번역 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 289
B.2 dbplyr 패키지를 사용한 자동 번역 . . . . . . . . . . . . . . . . . . . 292

C 화일과 디렉토리 관련 함수들 293
C.1 디렉토리 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293
C.2 스크립트 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295
C.3 화일 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 296

D R의 색, 세계 타임존 299

E 치트시트 305

관련분야 신착자료

박진호 (2023)
민인식 (2023)
전치혁 (2023)