HOME > Detail View

Detail View

(R과 Java로) 크롤링하자

(R과 Java로) 크롤링하자 (Loan 18 times)

Material type
단행본
Personal Author
노규성, 저 김진화, 저 박성택, 저 김근원, 저 김도연, 저
Title Statement
(R과 Java로) 크롤링하자 / 노규성 [외]지음
Publication, Distribution, etc
파주 :   생능출판,   2017  
Physical Medium
267 p. : 삽화(일부천연색) ; 24 cm
ISBN
9788970509037
General Note
공저자: 김진화, 박성택, 김근원, 김도연  
색인수록  
000 00000cam c2200205 c 4500
001 000045920006
005 20171109144731
007 ta
008 171108s2017 ulka 001c kor
020 ▼a 9788970509037 ▼g 93000
035 ▼a (KERIS)BIB000014462765
040 ▼a 211023 ▼c 211023 ▼d 211009
082 0 4 ▼a 005.74 ▼2 23
085 ▼a 005.74 ▼2 DDCK
090 ▼a 005.74 ▼b 2017z3
245 2 0 ▼a (R과 Java로) 크롤링하자 / ▼d 노규성 [외]지음
260 ▼a 파주 : ▼b 생능출판, ▼c 2017
300 ▼a 267 p. : ▼b 삽화(일부천연색) ; ▼c 24 cm
500 ▼a 공저자: 김진화, 박성택, 김근원, 김도연
500 ▼a 색인수록
700 1 ▼a 노규성, ▼e▼0 AUTH(211009)32559
700 1 ▼a 김진화, ▼e▼0 AUTH(211009)8487
700 1 ▼a 박성택, ▼e▼0 AUTH(211009)53270
700 1 ▼a 김근원, ▼e▼0 AUTH(211009)73408
700 1 ▼a 김도연, ▼e▼0 AUTH(211009)63721
945 ▼a KLPA

Holdings Information

No. Location Call Number Accession No. Availability Due Date Make a Reservation Service
No. 1 Location Main Library/Monographs(3F)/ Call Number 005.74 2017z3 Accession No. 111781315 Availability Available Due Date Make a Reservation Service B M

Contents information

Book Introduction

최근 들어 구체적으로 미리 정의된 데이터 모델을 가지고 있지 않은 비정형데이터, 그 중에서도 특히 웹(페이지) 상에서 텍스트 데이터를 그대로 가져와서 데이터를 추출하는 크롤링에 대한 관심이 점차 증가하고 있다.

Python, Ruby 등의 프로그래밍 언어를 사용해 크롤링을 하기 위해서는 프로그래밍 언어에 대한 기본적인 지식이 필요하기 때문에 초보자들이 접근하기에는 상당한 어려움이 따른다. 이 책은 초보자들도 쉽게 따라 할 수 있는 R과 JAVA를 활용하여 실습과정을 직접 따라해 보면서 크롤링에 대한 이해와 실전 능력을 향상하도록 집필되었다.

R과 Java로 쉽게 배우는 크롤링 입문
최근 빅데이터의 생성과 축적으로 여러 데이터 분석에 의한 성공 사례들이 알려지고 있다. 이러한 경향 아래서 ICT의 급속한 발전, 스마트 기기의 보급과 SNS의 확대로 인해 엄청난 데이터가 폭발적으로 쏟아지고 있는 실정이다. 더구나 앞으로 사물인터넷(IoT:Internet of Things)을 통해 데이터의 생성 속도와 양이 기하급수적으로 늘어날 것으로 보인다.

전통적으로 비즈니스 운영상 발생하는 데이터들은 거래 처리 데이터 및 각종 실적 데이터 등과 같은 정형 데이터이다. 최근에는 다양한 멀티미디어 기반의 데이터 및 소셜기반의 소셜 데이터, 센서와 위치 기반의 사물 인터넷 등의 정형/비정형 데이터도 폭넓게 생성되고 있다. 비정형 데이터란 글자 그대로 정형화되지 않은 데이터로서, 구체적으로 미리 정의된 데이터 모델을 가지고 있지 않은 데이터를 말한다.

최근 들어 이러한 비정형데이터에 대한 관심이 점차 증가하고 있다. 특히 웹(페이지) 상에서 텍스트 데이터를 그대로 가져와서 데이터를 추출하는 크롤링에 대한 관심이 점차 증가하고 있다.

크롤링을 하기 위한 방법으로 Python, Ruby 등의 프로그래밍 언어를 사용하는 방법도 있으나, 이를 위해서는 프로그래밍 언어에 대한 기본적인 지식이 필요하기 때문에 초보자들이 접근하기에는 상당한 어려움이 따른다. 따라서 이 책은 초보자들도 쉽게 따라 할 수 있는 R과 JAVA를 활용하여 실습과정을 직접 따라해 보면서 크롤링에 대한 이해와 실전 능력을 향상하도록 집필하였다.

이 책의 구성
1부에서는 비정형 데이터에 대해 소개하고 R, Rstudio, JDK 설치방법을 학습한다. 1장에서는 비정형 데이터 분석과 텍스트 마이닝에 대한 기본적인 이해와, 어떠한 기법들이 있는지 살펴본다. 2장에서는 크롤링 학습에 대한 사전 준비로 R과, R스튜디오, JAVA의 설치에 대해 학습한다.

2부에서는 JAVA를 활용하여 크롤링하기에 대해 순차적으로 따라해 보면서 실습을 진행한다. 3장에서는 이클립스와 Jsoup의 설치 방법에 대해 학습한다. 4장에서는 네이버 뉴스를 크롤링하는 방법과 함께 Fiddler 설치 방법에 대해 학습한다. 5장에서는 네이버 블로그를 크롤링하는 방법에 대해 학습한다.

3부에서는 R을 활용하여 크롤링하기에 대해 학습한다. 6에서 8장은 다음 영화의 네티즌 리뷰, 네이버 영화 네티즌 리뷰, 트위터를 크롤링하는 방법에 대해 각각 학습한다. 9장은 JAVA가 아닌 R로 네이버 뉴스를 크롤링하는 방법을 학습한다.

4부에서는 데이터 분석 및 시각화에 대해 학습하게 된다. 10장에서는 수집된 데이터를 정제하고 분석하는 방법을 학습하며, 11장에서는 R 패키지를 활용하여 텍스트 마이닝을 실습해 본다.


Information Provided By: : Aladin

Author Introduction

노규성(지은이)

한국생산성본부 회장으로 재직 중이다. 현재 선문대학교 경영학과 교수, 혁신성장협의회 수석대표, 한국디지털정책학회 회장, 블록체인경영협회 회장으로 활동하고 있다. 한국외국어대학교 경영학부를 졸업하고 동 대학원에서 경영정보학 석사학위와 박사학위를 받았다. 제16대 대통령직 인수위원회 경제 제2분과 자문위원, 문재인 정부 국정기획자문위원회 전문위원, 대통령직속 4차 산업혁명위원회 위원, 중소벤처기업혁신성장위원회 위원장, 정부혁신추진협의회 디지털혁신분과 위원장 등으로 활동했다. 한국 e-비즈니스대상(유공자부문 산업자원부장관 표창), 정부혁신에 기여한 공로로 대통령 표창장, 정부업무 발전에 기여한 공로로 근정포장, 국가 정보통신 정책 수립에 공헌하여 동탑산업훈장을 수상했다. 저서로 『디지털 스몰자이언츠』(2019), 『미래 예측 2030』(공역, 2019), 『4차산업혁명시대의 경영정보시스템』(공저, 2019), 『ICT 초강국 건설전략』(공저, 2017), 『스마트융합 비전과 국가전략』(공저, 2012), 『스마트워크 2.0』(공저, 2011) 등이 있다. “스마트워커의 역량모델에 관한 연구”, “지식경영 확산을 위한 정책적 과제”, “A Exploratory Study on Election Campaign Strategy in Korea by using Big Data” 등 다수의 연구논문과 보고서가 있다. 특히, 유튜브 <노규성TV> 채널을 운영하면서 양질의 일자리를 제공하는 우수 중소기업을 청년들에게 소개하고 4차 산업혁명 및 디지털 트랜스포메이션 관련 지식과 정보를 제공하는 데 혼신을 다하고 있다.

김진화(지은이)

- 서강대학교 경영학과 (경영전문대학원) 교수 - 한국지능정보시스템학회 회장 - 국제미래학회 미래경영예측 위원장 - 데이터 사이언스 & 아트 포럼 회장

박성택(지은이)

- 선문대학교 SW융합학부 교수 - (사)한국소프트웨어기술인협회 빅데이터 전임교수 - 한국생산성본부 자문위원 - 한국디지털정책학회 감사

김근원(지은이)

현) 한국소프트웨어기술인협회 빅데이터 연구원 서강대학교 대학원 경영학과 석사과정

김도연(지은이)

현) 한국환경정책평가연구원 빅데이터연구팀 연구원 충북대학교 대학원 정보보호경영학과 석사 한국직업능력개발원 위촉연구원

Information Provided By: : Aladin

Table of Contents

PART 01 시작하기 

CHAPTER 01 비정형 데이터 
1. 비정형 데이터 분석 
1.1 비정형 데이터의 이해 
1.2 비정형 데이터 분석과 마이닝 
1.3 비정형 데이터 분석의 중요성 
2. 텍스트 마이닝 
2.1 텍스트 마이닝의 이해 
2.2 텍스트 마이닝의 처리 과정 
2.3 텍스트 마이닝의 기법 
3. 소셜 데이터 마이닝 
3.1 소셜 데이터 마이닝의 이해 
3.2 소셜 데이터 마이닝의 활용 

CHAPTER 02 R 시작하기 
1. R 설치 및 실행 
2. R스튜디오(RStudio) 
2.1 R스튜디오 설치 방법 
2.2 R스튜디오 기본 설정 
3. JAVA 설치 및 환경 변수 설정 
3.1 JAVA 설치 방법 
3.2 JAVA 환경 변수 설정 방법 

PART 02 JAVA를 활용하여 크롤링하기 

CHAPTER 03 이클립스와 Jsoup 설치하기 
1. 이클립스(eclips) 설치하기 
2. Jsoup 설치하기 

CHAPTER 04 네이버 뉴스 크롤링하기 
1. URL 정리하기 
2. URL 연결하기 
3. 네이버 뉴스 기사 본문 크롤링 
4. text로 글 정제하기 
5. 본문 외의 크롤링 
6. Fiddler 
6.1 Fiddler 설치 
6.2 Fiddler로 헤더 값 확인 
6.3 Fiddler로 확인한 헤더정보 입력 
6.4 Fiddler (결과창) 
7. Attr 함수 
8. 지금까지 결과(한 페이지 크롤링) 
10. While문 
11. 지금까지 한 결과(여러 페이지 크롤링) 

CHAPTER 05 네이버 블로그 크롤링하기 
1. 블로그 한 페이지 크롤링 
2. 파싱할 사이트의 URL 입력 
2.1 숨어 있는 진짜 URL 입력 
2.2 숨어 있는 진짜 URL 결과 확인 
2.3 URL 완성 
3. 블로그 페이지 번호 
3.1 블로그 페이지 번호(소스 입력) 
3.2 블로그 페이지 번호 
3.3 블로그 페이지 번호 
4. 블로그 본문 크롤링 
4.1 블로그 본문 크롤링 
5. 파싱할 사이트의 URL 입력 
6. Fiddler로 확인한 헤더정보 입력 
7. 링크 주소 확인 
7.1 링크 주소 입력 
8. For문 
9. If문 
10. 지금까지 결과 
11. While문(여러 페이지) 
11.1 While문 시작 
11.2 While문 닫기 

PART 03 R을 활용하여 크롤링하기 

CHAPTER 06 다음(Daum) 영화 네티즌 리뷰 

CHAPTER 07 네이버(Naver) 영화 네티즌 리뷰 

CHAPTER 08 트위터 크롤링 

CHAPTER 09 네이버 뉴스 크롤링 

PART 04 데이터 분석 및 시각화 

CHAPTER 10 데이터 분석(정제) 

CHAPTER 11 텍스트마이닝(R 패키지 활용) 
1. 실습데이터 및 패키지 준비 
2. 한글 사전 설정 
3. 단어 추출하기 
4. 단어 추출 조건 지정하기 
5. 단어 추출 정제하기 
6. 워드클라우드 
7. 시각화 
8. 연관어 분석 
9. 단어 추출 및 트랜잭션 생성 
10. 단어 간 연관 규칙 산출 
11. 시각화 
12. 단어 근접 중심성 파악 

CHAPTER 12 시각화 
1. Tagxdo 
2. Worditout 
3. Pajek 
3.1 설치하기 
3.2 Pajek 간단한 네트워크 만들기 
3.3 Pajek 메르스 감염경로 확인해 보기 260

New Arrivals Books in Related Fields