HOME > 상세정보

상세정보

R를 이용한 텍스트 마이닝

R를 이용한 텍스트 마이닝

자료유형
단행본
개인저자
백영민
서명 / 저자사항
R를 이용한 텍스트 마이닝 = Text-mining using R / 백영민 지음
발행사항
파주 : 한울아카데미, 2017
형태사항
295 p. : 도표 ; 25 cm
총서사항
한울아카데미 ;2022
ISBN
9788946070226
서지주기
참고문헌(p. 289-291)과 색인수록
000 00000cam c2200205 c 4500
001 000045914693
005 20180222142336
007 ta
008 170912s2017 ggkd b 001c kor
020 ▼a 9788946070226 ▼g 93300
035 ▼a (KERIS)BIB000014565537
040 ▼a 222003 ▼c 222003 ▼d 211009
082 0 4 ▼a 006.312 ▼2 23
085 ▼a 006.312 ▼2 DDCK
090 ▼a 006.312 ▼b 2017z6
100 1 ▼a 백영민 ▼0 AUTH(211009)78931
245 1 0 ▼a R를 이용한 텍스트 마이닝 = ▼x Text-mining using R / ▼d 백영민 지음
246 3 0 ▼a 텍스트 마이닝
260 ▼a 파주 : ▼b 한울아카데미, ▼c 2017
300 ▼a 295 p. : ▼b 도표 ; ▼c 25 cm
440 0 0 ▼a 한울아카데미 ; ▼v 2022
504 ▼a 참고문헌(p. 289-291)과 색인수록
536 ▼a 이 저서는 2016년도 정부 재원(교육부 인문사회연구역량강화사업비)으로 한국연구재단의 지원을 받아 연구되었음 ▼g (NRF-2016S1A3A2925033)
945 ▼a KLPA

No. 소장처 청구기호 등록번호 도서상태 반납예정일 예약 서비스
No. 1 소장처 중앙도서관/제2자료실(3층)/ 청구기호 006.312 2017z6 등록번호 111778445 도서상태 대출중 반납예정일 2021-03-19 예약 서비스 M
No. 2 소장처 중앙도서관/제2자료실(3층)/ 청구기호 006.312 2017z6 등록번호 111786585 도서상태 대출가능 반납예정일 예약 서비스 B M
No. 3 소장처 세종학술정보원/과학기술실/ 청구기호 006.312 2017z6 등록번호 151347721 도서상태 대출가능 반납예정일 예약 서비스
No. 소장처 청구기호 등록번호 도서상태 반납예정일 예약 서비스
No. 1 소장처 중앙도서관/제2자료실(3층)/ 청구기호 006.312 2017z6 등록번호 111778445 도서상태 대출중 반납예정일 2021-03-19 예약 서비스 M
No. 2 소장처 중앙도서관/제2자료실(3층)/ 청구기호 006.312 2017z6 등록번호 111786585 도서상태 대출가능 반납예정일 예약 서비스 B M
No. 소장처 청구기호 등록번호 도서상태 반납예정일 예약 서비스
No. 1 소장처 세종학술정보원/과학기술실/ 청구기호 006.312 2017z6 등록번호 151347721 도서상태 대출가능 반납예정일 예약 서비스

컨텐츠정보

책소개

최근 가장 각광받는 프로그래밍 언어이자 오픈소스 프로그램인 R을 이용해 텍스트 분석을 실행하는 실제적인 방법을 안내한다. R은 현재 언론학, 정치학, 사회학, 컴퓨터공학, 통계학 등의 학술논문에서 소개되거나 해당 분과의 학술적 주장을 뒷받침하는 자료로서 효용을 인정받고 있다. 이런 추세에 맞춰 다양한 데이터 마이닝 기법과 데이터 처리 방법을 소개하고 이를 구현하는 R 프로그래밍 코드를 첫 줄부터 마지막 줄까지 세심하게 설명했다.

텍스트는 사회과학 연구자들이 다루는 ‘재료’이다. 이 재료를 이용해 세계와 인간을 분석하는 것이 사회과학자들의 일이다. 알고리즘에 기초한 텍스트 분석방법은 텍스트를 해석하는 인간의 지능을 유사하게 혹은 거칠게 모방한 인공지능이다. 텍스트 분석기법을 이용해 텍스트 데이터에서 정보를 추출하고 의미 있는 통계 결과를 얻어내는 것이 바로 ‘텍스트 마이닝’이다.

수년간 R를 이용한 텍스트 분석 워크숍을 진행해왔으며 스스로 R를 연구에 이용하고 있기도 한 저자의 경험을 바탕으로, 사회과학 연구자와 학생들의 눈높이와 필요에 맞춤하게 서술되었다. 사회과학 연구자들이 알고리즘 구현에 적극적으로 참여하면서 장차 사회적 맥락 정보를 텍스트 분석에 정량적 방식으로 투입하는 기법을 세울 수 있을 것이라는 기대를 갖게 한다.

비판적 사회과학을 돕는 데이터 분석 도구
지금 바로 시작하는 R 텍스트 마이닝 실용 레시피!


이 책은 최근 가장 각광받는 프로그래밍 언어이자 오픈소스 프로그램인 R을 이용해 텍스트 분석을 실행하는 실제적인 방법을 안내한다. 다양한 데이터 마이닝 기법과 데이터 처리 방법을 소개하고 이를 구현하는 R 프로그래밍 코드를 첫 줄부터 마지막 줄까지 세심하게 설명했다.
이 책에서 다루는 텍스트 처리기법들은 타당한 근거 위에서 학문적 신뢰성을 획득한 방법이다. 현재 언론학, 정치학, 사회학, 컴퓨터공학, 통계학 등의 학술논문에서 소개되거나 해당 분과의 학술적 주장을 뒷받침하는 자료로서 효용을 인정받고 있다.

특히 수년간 R를 이용한 텍스트 분석 워크숍을 진행해왔으며 스스로 R를 연구에 이용하고 있기도 한 저자의 경험은 이 책이 사회과학 연구자와 학생들의 눈높이와 필요에 맞춤하게 서술되도록 했다. 사회과학 연구자들이 알고리즘 구현에 적극적으로 참여하면서, 장차 사회적 맥락 정보를 텍스트 분석에 정량적 방식으로 투입하는 기법을 세울 수 있을 것이라는 기대를 갖게 한다.

사회학, 심리학, 언론학, 경제·경영학, 문화인류학, 보건의료학 등
사회과학 연구자와 학생을 위한
R 텍스트 마이닝 워크북!

디지털 시대, 텍스트의 홍수에서 의미 건져내기

텍스트는 사회과학 연구자들이 다루는 ‘재료’이다. 이 재료를 이용해 세계와 인간을 분석하는 것이 사회과학자들의 일이다. 전통적으로 텍스트 데이터를 분석하는 기법은 크게 두 가지다. 우선 연구자가 텍스트 데이터를 ‘문자 그대로’ 세밀하게 읽고 이해한 후, 연구자의 이론과 비판적 시각에 따라 요약하거나 일부만 발췌하여 제시하는 방식이다. 흔히 정성적 연구방법을 추구하는 연구자들이 사용하는 방식이며, 텍스트의 의미를 파악하는 가장 타당한 방법이다. 현재로서는 이 방법만이 행간의 의미와 미묘한 뉘앙스 차이를 파악해낼 수 있기 때문이다. 그러나 텍스트 분량이 방대할 경우 실행 자체가 불가능하고, 연구자의 주관적 관점이 개입할 여지가 많다는 문제를 안고 있다.
대용량의 텍스트를 체계적으로 처리하기 위해서는 정성적 연구방법보다는 정량적 연구방법이 더 효율적이다. 언론학을 비롯한 여러 분과의 사회과학자들은 ‘내용분석(content analysis)’ 기법을 이용해 텍스트를 분석해왔다. 그런데 오늘날과 같이 텍스트가 폭발적으로 넘쳐나는 시기에는 전통적 내용분석 방식은 더 이상 유지되기 어렵다. 소셜미디어를 비롯한 온라인 공간에서 발생하는 새로운 종류의 텍스트에 대해 연구자가 충분한 지식을 갖기 어렵고, 따라서 텍스트 분석의 타당성을 확보하기 어렵기 때문이다. 또한 방대한 텍스트 데이터를 분석하기 위해 엄청난 인건비와 관리비용, 시간이 소요되며, 설사 이 문제가 해결된다 하더라도 인간이 방대한 양을 처리하는 과정의 일관성과 신뢰도를 장담할 수 없다.
이 때문에 알고리즘을 활용한 텍스트 분석방법이 주목받고 있다. 알고리즘에 기초한 텍스트 분석방법은 텍스트를 해석하는 인간의 지능을 유사하게 혹은 거칠게 모방한 인공지능이다. 분석 대상이 되는 텍스트의 의미를 파악하기 위해 의미를 구성하는 최소 단위의 텍스트 구성요소들을 파악한 후, 이 구성요소들에 수학적 연산 과정을 적용시켜 어떤 텍스트 구성요소가 텍스트를 주도적으로 설명하는지, 혹은 어떤 텍스트 구성요소가 알려진 텍스트의 의미를 예측하는 데 강력한 효과를 발휘하는지를 정량화하는 방식이다. 이처럼 텍스트 분석기법을 이용해 텍스트 데이터에서 정보를 추출하고 의미 있는 통계 결과를 얻어내는 것이 바로 ‘텍스트 마이닝’이다.

사회과학자가 손수 프로그래밍해보는 텍스트 분석 알고리즘
이 책은 최근 가장 각광받는 프로그래밍 언어이자 오픈소스 프로그램인 R을 이용해 텍스트 마이닝’을 해내는 실제적인 방법을 안내한다. R은 각종 통계분석기법들이 패키지로 공개되어 있고, 텍스트 데이터를 직관적이고 효율적으로 처리할 수 있는 뛰어난 라이브러리들이 계속해서 추가되고 있다. 통계 결과를 그래프나 단어구름 등으로 손쉽게 시각화할 수도 있다. 그리고 이 모두가 무료다. 이런 까닭으로 R은 사회과학 연구에 텍스트 마이닝을 적용하는 데 더없이 좋은 새 도구로 사용되고 있다. 이 책은 다양한 데이터 마이닝 기법과 데이터 처리 방법을 소개하고 이를 구현하는 R 프로그래밍 코드를 첫 줄부터 마지막 줄까지 세심하게 설명했다.
이 책에서 다루는 텍스트 처리기법들은 타당한 근거 위에서 학문적 신뢰성을 획득한 방법이다. 현재 언론학, 정치학, 사회학, 컴퓨터공학, 통계학 등의 학술논문에서 소개되거나 해당 분과의 학술적 주장을 뒷받침하는 자료로서 효용을 인정받고 있다. 빠르게 변화하는 디지털시대 학문 환경 속에서 더욱 새롭고 효율적인 분석기법이 속속 제안되겠지만, 이 책에서 소개하는 기본 개념과 모형 구성의 기본 패러다임은 크게 바뀌지 않을 것으로 전망된다. 특히 수년간 R를 이용한 텍스트 분석 워크숍을 진행해왔으며 스스로 R를 연구에 이용하고 있기도 한 저자의 경험은 이 책이 사회과학 연구자와 학생들의 눈높이와 필요에 맞춤하게 서술되도록 했다. 기초 개념과 프로그래밍을 요령 있게 습득할 수 있는 이 책은 나날이 새로워지는 데이터 분석기법을 익히는 데 견고한 바탕이 될 것이다.


정보제공 : Aladin

저자소개

백영민(지은이)

연세대학교 신문방송학과를 졸업하고 서울대학교 언론정보학과에서 석사학위를 받았다. 2011년 미국 펜실베이니아 대학교 아넨버그 스쿨에서 박사학위를 받았다. KAIST 조교수를 지내고 현재 연세대학교 언론홍보영상학부 부교수로 재직 중이다. 주된 연구 관심사는 여론조사 및 수용자 조사, 계량적 연구방법으로 PLOS ONE, Journal of Communication, Communication Research, New Media & Society, Journal of Broadcasting and Electronic Media, American Politics Research, 〈한국언론학보〉 등 여러 학술지에 논문을 게재하였다. 지은 책으로 《R기반 데이터 과학: 타이디버스 접근》, 《R를 이용한 텍스트 마이닝》, 《R기반 제한적 종속변수대상 회귀모형》, 《R를 이용한 사회과학데이터 분석: 구조방정식 모형 분석》, 《방법론적 사유: 입말로 풀어쓴 사회과학 연구방법론》 등이 있으며, 옮긴 책으로는 《퍼스널 인플루언스》, 《국민의 선택: 대통령 선거캠페인 기간에 유권자는 지지후보를 어떻게 결정하는가?》, 《포퓰리즘》 등이 있다.

정보제공 : Aladin

목차

머리말 : R, 대용량 텍스트에 대한 체계적 분석도구 

1부 텍스트 데이터랑 무엇인가? 
01 텍스트 데이터로 파악하기 

2부 텍스트 데이터 사전처리 
01 텍스트 분석을 위한 기초적 R 함수 
02 텍스트 분석을 위한 R의 베이스 함수 
03 텍스트 분석을 위한 Striner 라이브러리 함수 
04 말뭉치 텍스트 데이터 사전처리 
05 한국어 텍스트 데이터 처리 
06 품사분석 

3부 텍스트 데이터 분석 및 결과 제시 
01 텍스트 데이터에 대한 기술통계 분석 
02 토픽모형 
03 감정분석 

4부 마무리 
01 R를 활용한 온라인 데이터 수집 소개 
02 맺음말 

참고문헌 
찾아보기 주제어

관련분야 신착자료

Taulli, Tom (2020)