HOME > Detail View

Detail View

R을 이용한 텍스트 마이닝 = 개정판

R을 이용한 텍스트 마이닝 = 개정판 (Loan 9 times)

Material type
단행본
Personal Author
백영민
Title Statement
R을 이용한 텍스트 마이닝 = Text-mining using R / 백영민 지음
판사항
개정판
Publication, Distribution, etc
파주 :   한울아카데미,   2020  
Physical Medium
423 p. : 천연색삽화, 도표: ; 25 cm
Series Statement
한울아카데미 ;2219
ISBN
9788946072190
Bibliography, Etc. Note
참고문헌(p. 399-402)과 색인수록
000 00000cam c2200205 c 4500
001 000046028619
005 20200521090830
007 ta
008 200520s2020 ggkad b 001c kor
020 ▼a 9788946072190 ▼g 93300
035 ▼a (KERIS)BIB000015541848
040 ▼a 211023 ▼c 211023 ▼d 211009
082 0 4 ▼a 006.312 ▼2 23
085 ▼a 006.312 ▼2 DDCK
090 ▼a 006.312 ▼b 2020z1
100 1 ▼a 백영민
245 1 0 ▼a R을 이용한 텍스트 마이닝 = ▼x Text-mining using R / ▼d 백영민 지음
250 ▼a 개정판
260 ▼a 파주 : ▼b 한울아카데미, ▼c 2020
300 ▼a 423 p. : ▼b 천연색삽화, 도표: ; ▼c 25 cm
440 0 0 ▼a 한울아카데미 ; ▼v 2219
504 ▼a 참고문헌(p. 399-402)과 색인수록
536 ▼a 이 저서는 2016년도 정부 재원(교육부 인문사회연구역량강화사업비)으로 한국연구재단의 지원을 받아 연구되었음 ▼g (NRF-2016S1A3A2925033)
945 ▼a KLPA

Holdings Information

No. Location Call Number Accession No. Availability Due Date Make a Reservation Service
No. 1 Location Main Library/Monographs(3F)/ Call Number 006.312 2020z1 Accession No. 111828604 Availability In loan Due Date 2021-07-08 Make a Reservation Available for Reserve R Service M

Contents information

Book Introduction

2017년 가을 첫선을 보인 후 독자의 사랑을 받아온 개정판. 2년 반이라는 길다면 길고 짧다면 짧은 시간동안 R을 활용한 기법은 많은 변화와 발전이 있었다. 기법상의 변화 뿐 아니라 우리를 둘러싼 텍스트 환경의 판도도 변화했다. 웹보다는 모바일 플랫폼이 대세가 된 것이다. 저자는 이러한 변화에 발맞추고 학계와 독자들의 피드백을 반영해 424쪽 개정판을 내놓았다.

이 책에서 다루는 여러 기법들은 학문적 신뢰성이 검증되었으며 현재 언론학, 정치학, 사회학, 컴퓨터공학, 통계학 등의 학술논문에서 소개되거나 해당 분과의 학술적 주장을 뒷받침하는 자료로서 효용을 인정받고 있다. 또한 예제를 통해 독자가 직접 실습해 볼 수 있도록 구성되어 있다.

저자는 자신의 연구 데이터를 분석하기 위한 도구로서 R을 다루어 왔고 여론조사 및 수용자 조사, 계량적 연구 방법에 주로 관심을 두고 연구해 왔다. 이와 함께 수년간 R를 이용한 텍스트 분석 워크숍을 진행한 저자의 경험이 이 책에 그대로 녹아 있다.

R를 이용한 텍스트 마이닝(개정판)
이번 개정판에는...


첫째, 텍스트 사전처리와 관련된 stringr 패키지에 편리한 기능을의 함수들이 새로 탑재되었다. 이에 따라 2판에서는 stringr 패키지의 함수들을 설명하는 분량이 증가했다.
둘째, 1판에서 사용한 말뭉치(corpus) 데이터를 업데이트했다.
셋째, KoNLP 패키지에서 기존 사전에 이용자가 지정 표현을 추가하하는 방법을 소개했다. 또한 KoNLP 패키지 외에 한국어 형태소 분석이 가능한 R 패키지들을 간단하게 소개했다.
넷째, 텍스트 내부의 단어와 단어의 연관 관계를 설명에 널리 사용되는 연관 규칙(association rule) 분석을 새로 소개했다.
다섯째, 잠재적 디리클레 할당(latent Dirichlet allocation, LDA) 모형에서 최적의 잠재토픽 개수를 추정하는 방법을 추가로 소개했다.
여섯째, 적은 수의 단어로 구성된 짧은 텍스트(예를 들어 140자 이내의 트윗, 온라인 Q&A 게시판, 광고 문구 등)에서 잠재토픽을 추정하는 데 특화된 토픽모형들 중 하나로 ‘공통단어등장 토픽모형(biterm topic model, BTM)’을 추가로 소개했다.
일곱째, 타이디데이터 관점에서 데이터를 조직하고 관리하는 tidyverse 접근법을 기반으로 하는 텍스트 데이터 분석기법들을 대폭 추가했다.
여덟째, 감정어휘 사전(sentiment lexicon)을 이용한 감정분석(sentiment analysis) 내용은 거의 대부분을 새로 작성했다. 우선 영어 텍스트의 경우 최근 새로운 감정어휘 사전들이 개발되어 공개되면서, 이를 다운로드받을 수 있는 textdata 패키지를 새로 소개하게 되었다.
아홉째, caret 패키지를 이용해 지도 기계학습 기법을 소개했다.
끝으로 웹 스크레이핑(scraping)을 소개하는 부분은 완전히 새로 작성했다. 1판에서는 실렉터가젯(selectorGadget)이라는 프로그램을 위주로 웹 스크레이핑을 설명했으나, 온라인 공간의 웹페이지 구성 방식 변화로 인해 실렉터가젯을 활용한 웹 스크레이핑 적용 영역은 크게 감소했다. 2판에서는 모바일 환경에 특화된 그리고 반응형 웹 페이지가 주류인 현재의 온라인 공간에 더 적합한 RSelenium 패키지와 rvest 패키지를 이용한 웹 스크레이핑 방법을 간략하게 소개했다.
이번 개정판은 흑백으로 인쇄되었던 초판과 달리 컬러로 인쇄해 독자들이 출력 결과물을 실제 색으로 확인할 수 있다. 코드 부분도 본문과 색을 다르게 인쇄하여 가시성을 높였다.

출간 의의

프로그램의 작동법을 아는 것과 그것을 이용헤 제대로 된 결과물을 얻는 것은 별개이다. R이 강력한 도구임에는 틀림없지만 그 도구를 어떻게 써야 하는지 배우는 데는 상당한 노력이 필요하다. 특히 일반적, 피상적 사용법으로는 나에게 맞는 최적의 결과물을 만들어 내기 어렵다.
저자는 자신의 연구 데이터를 분석하기 위한 도구로서 R을 다루어 왔고 여론조사 및 수용자 조사, 계량적 연구 방법에 주로 관심을 두고 연구해 왔다. 저자 자신의 시행착오와 교차검층을 통해 확인된 결과를 제시하고 있다는 점이 이 책을 더욱 가치게 한다. 이 책은 기존의 영어 텍스트 처리 방식뿐만 아니라 우리말에 특화된 방식도 자세하게 예제를 통해 설명하고 있어 특히 도움이 된다.
자신의 연구를 위해 또 데이터 분석을 위해 R를 이용하고자 하는 사람은 저자의 친절한 설명과 자세한 코드 등을 이용해 보다 쉽게 텍스트 마이닝에 도전해 볼 수 있을 것이다.


Information Provided By: : Aladin

Author Introduction

백영민(지은이)

연세대학교 신문방송학과를 졸업하고 서울대학교 언론정보학과에서 석사학위를 받았다. 2011년 미국 펜실베이니아 대학교 아넨버그 스쿨에서 박사학위를 받았다. KAIST 조교수를 지내고 현재 연세대학교 언론홍보영상학부 부교수로 재직 중이다. 주된 연구 관심사는 여론조사 및 수용자 조사, 계량적 연구방법으로 PLOS ONE, Journal of Communication, Communication Research, New Media & Society, Journal of Broadcasting and Electronic Media, American Politics Research, 〈한국언론학보〉 등 여러 학술지에 논문을 게재하였다. 지은 책으로 《R기반 데이터 과학: 타이디버스 접근》, 《R를 이용한 텍스트 마이닝》, 《R기반 제한적 종속변수대상 회귀모형》, 《R를 이용한 사회과학데이터 분석: 구조방정식 모형 분석》, 《방법론적 사유: 입말로 풀어쓴 사회과학 연구방법론》 등이 있으며, 옮긴 책으로는 《퍼스널 인플루언스》, 《국민의 선택: 대통령 선거캠페인 기간에 유권자는 지지후보를 어떻게 결정하는가?》, 《포퓰리즘》 등이 있다.

Information Provided By: : Aladin

Table of Contents

ㆍ2판 머리말
ㆍ1판 머리말


1부 텍스트 데이터란 무엇인가
01 텍스트를 데이터로 파악하기

2부 텍스트 데이터 처리
01 텍스트 분석을 위한 기초적 R 함수
02 텍스트 분석을 위한 R의 베이스 함수
03 텍스트 분석을 위한 stringr 패키지 함수
04 말뭉치 텍스트 데이터 사전처리
05 한국어 텍스트 데이터 처리
06 품사분석

3부 텍스트 데이터 분석 및 결과 제시
01 텍스트 데이터에 대한 기술통계분석
02 토픽모형
03 감정분석

4부 마무리
01 RSelenium, rvest 패키지를 활용한 온라인 데이터 수집
02 맺음말

별첨 자료
01 자바 설치 방법
02 잠재토픽 개수 선정

New Arrivals Books in Related Fields

Baumer, Benjamin (2021)
데이터분석과인공지능활용편찬위원회 (2021)
Harrison, Matt (2021)