000 | 00000cam c2200205 c 4500 | |
001 | 000046002230 | |
005 | 20191205095135 | |
007 | ta | |
008 | 191015s2019 ulkad b 000c kor | |
020 | ▼a 9791188621552 ▼g 93000 | |
040 | ▼a 211009 ▼c 211009 ▼d 211009 | |
041 | 1 | ▼a kor ▼h eng |
082 | 0 4 | ▼a 006.312 ▼2 23 |
085 | ▼a 006.312 ▼2 DDCK | |
090 | ▼a 006.312 ▼b 2019z2 | |
100 | 1 | ▼a Silge, Julia |
245 | 1 0 | ▼a R로 배우는 텍스트 마이닝 : ▼b tidytext 라이브러리를 활용하는 방법 / ▼d 줄리아 실기, ▼e 데이비드 로빈슨 지음 ; ▼e 박진수 옮김 |
246 | 1 9 | ▼a Text mining with R : ▼b a tidy approach |
260 | ▼a 파주 : ▼b 제이펍, ▼c 2019 | |
300 | ▼a xix, 211 p. : ▼b 삽화, 도표 ; ▼c 25 cm | |
504 | ▼a 참고문헌: p. 201-202 | |
700 | 1 | ▼a Robinson, David, ▼e 저 |
700 | 1 | ▼a 박진수, ▼e 역 |
900 | 1 0 | ▼a 실기, 줄리아, ▼e 저 |
900 | 1 0 | ▼a 로빈슨, 데이비드, ▼e 저 |
소장정보
No. | 소장처 | 청구기호 | 등록번호 | 도서상태 | 반납예정일 | 예약 | 서비스 |
---|---|---|---|---|---|---|---|
No. 1 | 소장처 중앙도서관/제2자료실(3층)/ | 청구기호 006.312 2019z2 | 등록번호 111820368 | 도서상태 대출중 | 반납예정일 2021-01-27 | 예약 예약가능 | 서비스 |
No. 2 | 소장처 과학도서관/Sci-Info(1층서고)/ | 청구기호 006.312 2019z2 | 등록번호 121251324 | 도서상태 대출중 | 반납예정일 2021-02-15 | 예약 예약가능(1명 예약중) | 서비스 |
No. 3 | 소장처 세종학술정보원/과학기술실/ | 청구기호 006.312 2019z2 | 등록번호 151347375 | 도서상태 대출가능 | 반납예정일 | 예약 | 서비스 |
No. | 소장처 | 청구기호 | 등록번호 | 도서상태 | 반납예정일 | 예약 | 서비스 |
---|---|---|---|---|---|---|---|
No. 1 | 소장처 중앙도서관/제2자료실(3층)/ | 청구기호 006.312 2019z2 | 등록번호 111820368 | 도서상태 대출중 | 반납예정일 2021-01-27 | 예약 예약가능 | 서비스 |
No. | 소장처 | 청구기호 | 등록번호 | 도서상태 | 반납예정일 | 예약 | 서비스 |
---|---|---|---|---|---|---|---|
No. 1 | 소장처 과학도서관/Sci-Info(1층서고)/ | 청구기호 006.312 2019z2 | 등록번호 121251324 | 도서상태 대출중 | 반납예정일 2021-02-15 | 예약 예약가능(1명 예약중) | 서비스 |
No. | 소장처 | 청구기호 | 등록번호 | 도서상태 | 반납예정일 | 예약 | 서비스 |
---|---|---|---|---|---|---|---|
No. 1 | 소장처 세종학술정보원/과학기술실/ | 청구기호 006.312 2019z2 | 등록번호 151347375 | 도서상태 대출가능 | 반납예정일 | 예약 | 서비스 |
컨텐츠정보
책소개
요즘 사용할 만한 데이터는 비정형 데이터이거나 텍스트 위주로 구성되어 있다. 하지만 이러한 데이터는 분석가들이 일상적으로 사용하는 데이터 랭글링 도구나 시각화 도구를 적용하기가 쉽지 않다. 그러나 줄리아 실기와 데이비드 로빈슨이 개발한 tidytext 패키지라면 이야기가 달라진다.
tidytext 패키지는 ggplot2나 dplyr 같은 R 패키지에 깔려 있는 정돈(tidy, 깔끔화) 원리를 바탕으로 개발되었는데, 이 책을 통해 여러분은 tidytext와 R에서 쓸 수 있는 그 밖의 정돈 도구들로 텍스트를 더욱 쉽고 효율적으로 분석하는 방법을 익힐 수 있다.
텍스트 데이터를 정리하고 시각화하기 위한 새로운 방법!
tidytext 라이브러리와 그 밖의 정돈 텍스트 분석 방법을 배운다!
요즘 사용할 만한 데이터는 비정형 데이터이거나 텍스트 위주로 구성되어 있다. 하지만 이러한 데이터는 분석가들이 일상적으로 사용하는 데이터 랭글링 도구나 시각화 도구를 적용하기가 쉽지 않다. 그러나 줄리아 실기와 데이비드 로빈슨이 개발한 tidytext 패키지라면 이야기가 달라진다. tidytext 패키지는 ggplot2나 dplyr 같은 R 패키지에 깔려 있는 정돈(tidy, 깔끔화) 원리를 바탕으로 개발되었는데, 이 책을 통해 여러분은 tidytext와 R에서 쓸 수 있는 그 밖의 정돈 도구들로 텍스트를 더욱 쉽고 효율적으로 분석하는 방법을 익힐 수 있다.
특히, 저자들은 텍스트를 데이터 프레임처럼 다루는 방법을 전수함으로써 여러분이 텍스트의 특성들을 조작하고, 요약하고, 시각화할 능력을 갖추게 한다. 또한, 여러분은 자연어 처리(NLP) 방식을 통합해 효율성 있는 작업 흐름을 배울 수 있다. 더욱이 실용적인 예제 코드를 통해 데이터를 탐색하다 보면, 우리가 분석하는 문학, 뉴스, 소셜 미디어로부터 진정한 통찰력을 창출할 수 있을 것이다.
이 책의 주요 내용
■ tidytext 형식을 NLP에 적용하는 방법을 학습한다.
■ 정서 분석 기법으로 텍스트에 담긴 감성적 내용을 학습한다.
■ 빈도를 측정해 문서 내에서 가장 중요한 용어들을 식별한다.
■ ggraph 패키지와 widyr 패키지를 사용해 단어 사이의 관계와 연결을 찾아낸다.
■ 정돈된(깔끔한) 텍스트 형식과 정돈되지 않은 텍스트 형식을 서로 바꿔본다.
■ 토픽 모델링으로 문서 모음집을 자연스럽게 분류한다.
■ 트위터 아카이브를 비교하거나, 미항공우주국(NASA)이 제공하는 메타데이터를 파 보거나,
수천 개나 되는 유즈넷 메시지를 분석해 보는 식으로 사례 연구를 진행한다.
정보제공 :

저자소개
줄리아 실기(지은이)
줄리아는 스택 오버플로에서 일하는 데이터 과학자다. 복잡한 데이터셋들을 분석하기도 하고 기술적 주제로 다양한 청중과 소통하기도 한다. 천체물리학 박사이며, 제인 오스틴을 사랑하고, 아름다운 도표 그리기를 좋아한다.
데이비드 로빈슨(지은이)
데이비드는 스택 오버플로에서 데이터 과학자로 근무하고 있으며, 프린스턴대학교에서 전산생물학 박사 학위를 받았다. broom, gganimate, fuzzyjoin, widyr 같은 R 패키지를 주로 오픈소스 형태로 개발한다.
박진수(옮긴이)
업으로 발판을 다지고 있다. 번역한 책으로 《사물인터넷을 위한 인공지능》 《실전! GAN 프로젝트》 《실전 예제로 배우는 GAN》 《전문가를 위한 머신러닝 솔루션》 《딥러닝 모델 설계를 떠받치는 기술》 《따라 하면서 배우는 유니티 ML-Agents》가 있다.

목차
CHAPTER 1 정돈 텍스트(깔끔한 텍스트) 형식 1 정돈 텍스트와 다른 데이터 구조 비교하기 2 unnest_tokens 함수 3 제인 오스틴의 작품 정돈하기 6 gutenbergr 패키지 10 단어 빈도 10 요약 16 CHAPTER 2 정돈 데이터를 사용한 정서분석 17 정서 데이터셋 18 내부 조인을 사용한 정서분석 21 세 가지 정서 사전 비교 25 가장 흔한 긍정 단어와 부정 단어 28 워드 클라우드 30 단순한 단어 이상인 단위 보기 32 요약 35 CHAPTER 3 단어와 문서의 빈도 분석: tf-idf 37 제인 오스틴의 소설 속 용어빈도 38 지프의 법칙 40 bind_tf_idf 함수 44 물리학 텍스트의 말뭉치 47 요약 53 CHAPTER 4 단어 간 관계: 엔그램과 상관 55 엔그램에 의한 토큰화 56 엔그램 개수 세기와 선별하기 57 바이그램 분석 59 정서분석 시 바이그램을 사용해 문맥 제공하기 62 ggraph를 사용해 바이그램 연결망 시각화화기 65 그 밖의 텍스트에 들어 있는 바이그램 시각화하기 71 widyr 패키지와 단어 쌍 세기 및 상관 73 각 단원 간의 개수 세기 및 상관 74 쌍 단위 상관 검사 76 요약 81 CHAPTER 5 비정돈 형식 간에 변환하기 83 문서-용어 행렬 정돈하기 84 DocumentTermMatrix 객체 정돈하기 85 dfm 객체 정돈하기 89 정돈 텍스트 데이터를 행렬에 캐스팅하기 92 Corpus 객체를 메타데이터로 정돈하기 94 사례 연구: 금융 관련 기사 마이닝 97 요약 104 CHAPTER 6 토픽 모델링 105 잠재 디리클레 할당 106 단어-토픽 확률 108 문서-토픽 확률 111 예제: 대도서관 강도 113 각 장의 LDA 115 문서당 분류 118 단어별 할당: augment 121 대체 LDA 구현 125 요약 127 CHAPTER 7 사례 연구: 트위터 아카이브 비교 129 데이터 및 트위터 분포 얻기 129 단어 빈도 131 단어 용도 비교 135 단어 사용 변화 137 즐겨찾기 및 리트윗 143 요약 148 CHAPTER 8 사례 연구: NASA 메타데이터 마이닝 149 NASA가 데이터를 조직하는 방식 150 데이터 랭글링과 정돈 151 일부 초기 단순 탐사 154 단어 동시 발생과 상관 156 설명 및 제목 단어 연결망 156 중요어 연결망 159 설명 필드에 대한 tf-idf 계산 163 설명 필드 단어의 tf-idf는 무엇인가? 163 설명 필드를 중요어에 연결하기 164 토픽 모델링 166 문서-용어 행렬에 캐스팅하기 166 토픽 모델링 준비 167 토픽 모델 해석 168 토픽 모델링을 중요어와 연결하기 175 요약 178 CHAPTER 9 사례 연구: 유즈넷 텍스트 분석 179 전처리 179 텍스트 전처리 181 뉴스그룹의 단어들 183 뉴스그룹 내에서 tf-idf 찾기 184 토픽 모델링 187 정서분석 190 단어별 정서분석 191 메시지별 정서분석 194 엔그램 분석 197 요약 199 참고문헌 201 찾아보기 203