HOME > 상세정보

상세정보

R을 이용한 웹스크레이핑과 데이터분석

R을 이용한 웹스크레이핑과 데이터분석 (2회 대출)

자료유형
단행본
개인저자
곽기영, 郭起寧, 1964-
서명 / 저자사항
R을 이용한 웹스크레이핑과 데이터분석 = Web scraping and data analysis with R / 곽기영 저
발행사항
서울 :   청람,   2022  
형태사항
viii, 827 p. : 천연색삽화, 도표 ; 27 cm
ISBN
9788959728732
일반주기
Appendix: Tidyverse  
서지주기
참고문헌(p. 813)과 색인수록
000 00000cam c2200205 c 4500
001 000046128110
005 20220916113231
007 ta
008 220916s2022 ulkad b 001c kor
020 ▼a 9788959728732 ▼g 93320
035 ▼a (KERIS)BIB000016209173
040 ▼a 211023 ▼c 211023 ▼d 211009
082 0 4 ▼a 519.50285 ▼2 23
085 ▼a 519.50285 ▼2 DDCK
090 ▼a 519.50285 ▼b 2022z17
100 1 ▼a 곽기영, ▼g 郭起寧, ▼d 1964- ▼0 AUTH(211009)83390
245 1 0 ▼a R을 이용한 웹스크레이핑과 데이터분석 = ▼x Web scraping and data analysis with R / ▼d 곽기영 저
260 ▼a 서울 : ▼b 청람, ▼c 2022
300 ▼a viii, 827 p. : ▼b 천연색삽화, 도표 ; ▼c 27 cm
500 ▼a Appendix: Tidyverse
504 ▼a 참고문헌(p. 813)과 색인수록
945 ▼a ITMT

소장정보

No. 소장처 청구기호 등록번호 도서상태 반납예정일 예약 서비스
No. 1 소장처 과학도서관/Sci-Info(1층서고)/ 청구기호 519.50285 2022z17 등록번호 121260821 도서상태 대출중 반납예정일 2023-01-26 예약 예약가능 R 서비스 M

컨텐츠정보

책소개

웹상에 다양한 방식으로 저장된 데이터를 R을 이용하여 자동으로 수집하는 체계적인 방법과 이를 이용한 데이터분석 및 시각화 기법을 소개한다.

이 책은 웹상에 다양한 방식으로 저장된 데이터를 R을 이용하여 자동으로 수집하는 체계적인 방법과 이를 이용한 데이터분석 및 시각화 기법을 소개합니다.
이 책의 동영상 강의와 R 스크립트 코드 및 예제 파일은 다음 사이트에서 볼 수 있습니다.
•동영상 강의: https://www.youtube.com/곽기영
•R 스크립트 코드 및 예제 파일: https://www.github.com/kykwahk

지난 수십 년간 인터넷과 월드와이드웹(World Wide Web)은 급속한 성장을 거듭해 왔고 우리의 생활 방식을 획기적으로 변화시켰습니다. 그로 인해 인터넷에는 우리가 상상할 수 있는 거의 모든 유형의 방대한 데이터가 축적되어 왔습니다. 이러한 데이터는 인간의 행동을 이해하고 비즈니스 의사결정을 하는 데 있어서 중요한 정보를 제공합니다. 어떤 데이터는 단순한 형식의 정형화된 텍스트로 저장되어 있어 비교적 쉽게 분석에 활용할 수 있는 반면, 어떤 데이터는 비정형적 구조로 인해 활용을 위해서는 좀 더 복잡한 기술과 절차가 요구되기도 합니다. 웹사이트상에 게시된 비구조화된 데이터로부터 분석을 위해 필요한 구조화된 데이터를 추출하는 과정을 웹스크레이핑(web scraping)이라고 합니다. 이 책은 웹상에 다양한 방식으로 저장된 데이터를 R을 이용하여 자동으로 수집하는 체계적인 방법과 이를 이용한 데이터분석 및 시각화 기법을 소개합니다.
이 책은 다음과 같은 특징을 갖습니다. 첫째, 웹스크레이핑 과정에 필요한 기반기술을 가능하면 특정 프로그래밍 언어와 독립적으로 설명하려고 노력하였습니다. 이 책은 비록 R을 바탕으로 웹스크레이핑 과정을 소개하고 있기는 하지만 웹스크레이핑의 중요한 개념적·기술적 요소는 어느 언어나 도구를 사용하더라도 공통적인 이해가 필요한 부분이라고 믿고 있기 때문입니다.
둘째, 가능한 여러 분야의 사례를 포함하였습니다. 웹스크레이핑의 어려움 중의 하나는 데이터 수집 과정에 매우 많은 경우의 수가 존재한다는 것입니다. 따라서 모든 문제를 해결할 수 있는 만병통치약과 같은 단일 접근법은 존재하지 않습니다. 갖가지 형태의 웹사이트로부터 여러 방식의 데이터 추출 과정을 접해봄으로써 이러한 어려움을 어느 정도 극복할 수 있을 것입니다.
셋째, 단순히 데이터 수집에 그치지 않고 가능하면 데이터분석과 시각화 과정을 함께 경험해볼 수 있도록 하였습니다. 이 책은 웹스크레이핑 방법을 소개하는 것이 주목적이긴 하지만 데이터 수집은 궁극적으로 분석을 목적으로 한다는 것을 간과할 수는 없습니다. 따라서 수집한 데이터를 이용하여 가능한 범위 내에서 머신러닝, 텍스트마이닝 및 토픽모델링, 네트워크분석, 시계열분석 등의 데이터분석을 수행하였습니다. 또한 다양한 관점에서 데이터를 시각화하여 분석 과정에 풍부함을 더할 수 있도록 하였습니다. 그러나 이 책의 주목적이 웹스크레이핑이라는 점을 고려하여 데이터분석은 수집한 데이터의 활용 방법 및 특성을 이해하는 수준에서 간결하게 다루었으며 그에 대한 설명도 제한적인 수준에서 그쳤습니다. 그래서 이 책에서 보다 깊이 소개하지 못한 데이터분석 기법들은 필자의 다른 책에서 다루는 것으로 미룰 수밖에 없었습니다.


정보제공 : Aladin

저자소개

곽기영(지은이)

국민대학교 경영대학과 비즈니스IT전문대학원에 재직 중이다. 서울대학교 경영대학을 졸업하였으며 KAIST에서 석사 및 박사 학위를 취득하였다. 한국경영학회, 한국경영정보학회, 한국경영과학회, 한국지식경영학회, 한국지능정보시스템학회, 한국정보시스템학회, 디지털산업정보학회 등으로부터 논문상을 수상하였다. <소셜네트워크분석>, <R을 이용한 웹스크레이핑과 데이터분석>, <R을 이용한 통계데이터분석>, <SPSS를 이용한 통계데이터분석> 등의 저서를 출간하며, 통계 및 데이터분석 분야에서 활발한 저술 활동을 하고 있다. 삼성SDS에서 정부기관 및 기업을 상대로 정보전략계획, 비즈니스 프로세스 리엔지니어링, e-비즈니스 등과 관련된 프로젝트를 수행하며 IT 컨설턴트로 재직한 경험이 있으며 CISA(Certified Information Systems Auditor), PMP(Project Management Professional), CGEIT(Certified in the Governance of Enterprise IT) 등의 국제자격을 보유하고 있다. •YouTube: https://www.youtube.com/곽기영 •GitHub: https://github.com/kykwahk

정보제공 : Aladin

목차

Chapter 01. 웹스크레이핑 개요
1.1 웹 데이터 수집
1.2 웹스크레이핑 기술 및 기법

Chapter 02. 파일 다운로드
2.1 파일 읽기
CSV
테이블
비정형 텍스트
스프레드시트
2.2 사례
아이리스 @UCI
원자력 발전소 @NRC
인공강우 @StatLib
이상한 나라의 앨리스 @프로젝트 구텐베르크

Chapter 03. 텍스트 패턴매칭
3.1 정규표현식
문자열 매칭
문자 클래스
수량자
그리디 매칭 vs. 레이지 매칭
이스케이프 시퀀스
문자 클래스 시퀀스
백레퍼런스
예: 전화번호부
3.2 텍스트 함수
base 패키지
stringr 패키지
3.3 인코딩
3.4 사례
게티스버그 연설 @에이브러햄 링컨 온라인
국가코드 @UN
직업별 연봉 @CNBC

Chapter 04. XPath
4.1 HTML 구조
헤딩
패러그래프
포매팅
CSS
링크
테이블
리스트
그룹
폼
4.2 XML 구조
4.3 HTML/XML 파싱과 노드셋 추출
4.4 XPath와 노드셋/데이터 추출
노드셋 추출
데이터 추출
4.5 사례
노벨상 소개 @노벨재단
911 테러 @뉴욕타임즈
올해의 영화 100 @IMDb
레스토랑 리뷰 @오픈테이블
영화 리뷰 @네이버
웹소설 @네이버
국가별 가처분 소득 @NationMaster
국회의원 경비 내역 @BBC
동의어 사전 @워드넷
가독성 테스트 @웹FX
이미지 포맷 변환 @픽스픽처
경제통계 @미국노동통계국

Chapter 05. CSS 선택자
5.1 노드 선택
5.2 SelectorGadget
5.3 사례
인기 영화 250 @IMDb
노벨상 수상 @노벨재단
세계인구 @위키피디아
올림픽 메달 @위키피디아
출생아수 @미국사회보장국
위험에 처한 세계유산 @위키피디아/UNESCO
동의어 사전 @워드넷
가독성 테스트 @웹FX
Chapter 06. 셀레니움
6.1 셀레니움 환경 구축
자바 바이너리
rsDriver()
도커
6.2 RSelenium 패키지
시작
이동
요소 식별
요소 구동
자바스크립트 실행
프레임
6.3 사례
영화 리뷰 @IMDb
동영상 정보 @유튜브
글로벌 대학 순위 @US뉴스
프로축구 통계 @프리미어리그

Chapter 07. JSON
7.1 JSON 구조
7.2 JSON 파싱
RJSONIO 패키지
jsonlite 패키지
7.3 사례
국가/지역 코드 @UN
색상 코드 @GitHub
레미제라블 @GitHub
연구 키워드 @NASA

Chapter 08. API
8.1 API 개요
REST
GraphQL
8.2 OAuth 인증
8.3 API 래퍼 소프트웨어
8.4 사례
특일 정보 @공공데이터포털/천문연구원
대기오염 정보 @공공데이터포털/한국환경공단
아파트 매매 실거래 정보 @공공데이터포털/국토교통부
소액대출 @Kiva
트윗 @트위터
실업률 @세계은행
eBook @프로젝트 구텐베르크

Appendix. Tidyverse
A.1 팩터와 데이터프레임
forcats 패키지
tibble 패키지

A.2 텍스트와 날짜
stringr 패키지
lubridate 패키지
A.3 입력 및 출력: readr 패키지
A.4 데이터 변환
dplyr 패키지
purrr 패키지
tidyr 패키지
A.5 그래픽: ggplot2 패키지
그래프 생성
geom 객체 옵션
집단별 그래프
그래프 옵션
테마
그래프 배치 및 저장

관련분야 신착자료