000 | 00000cam c2200205 c 4500 | |
001 | 000046063480 | |
005 | 20210112162019 | |
007 | ta | |
008 | 210112s2020 ulka 001c kor | |
020 | ▼a 9791161753959 ▼g 93000 | |
035 | ▼a (KERIS)BIB000015545384 | |
040 | ▼a 211023 ▼c 211023 ▼d 211009 | |
041 | 1 | ▼a kor ▼h eng |
082 | 0 4 | ▼a 006.35 ▼2 23 |
085 | ▼a 006.35 ▼2 DDCK | |
090 | ▼a 006.35 ▼b 2020z1 | |
100 | 1 | ▼a Ghosh, Sohom |
245 | 2 0 | ▼a (예제로 배우는) 자연어 처리 기초 : ▼b NLP 알고리즘, 텍스트 분류와 요약, 감성 분석 / ▼d 쇼홈 고시, ▼e 드와이트 거닝 지음 ; ▼e 김창엽, ▼e 최민환 옮김 |
246 | 1 9 | ▼a Natural Language Processing Fundamentals |
260 | ▼a 서울 : ▼b 에이콘, ▼c 2020 | |
300 | ▼a 429 p. : ▼b 삽화 ; ▼c 24 cm | |
490 | 1 0 | ▼a 에이콘 데이터 과학 시리즈 |
500 | ▼a 색인과 부록수록 | |
650 | 0 | ▼a Natural language processing (Computer science) |
650 | 0 | ▼a Python (Computer program language) |
700 | 1 | ▼a Gunning, Dwight, ▼e 저 |
700 | 1 | ▼a 김창엽, ▼e 역 |
700 | 1 | ▼a 최민환, ▼e 역 |
830 | 0 | ▼a 에이콘 데이터 과학 시리즈 |
900 | 1 0 | ▼a 고시, 쇼홈, ▼e 저 |
900 | 1 0 | ▼a 거닝, 드와이트, ▼e 저 |
945 | ▼a KLPA |
소장정보
No. | 소장처 | 청구기호 | 등록번호 | 도서상태 | 반납예정일 | 예약 | 서비스 |
---|---|---|---|---|---|---|---|
No. 1 | 소장처 중앙도서관/제2자료실(3층)/ | 청구기호 006.35 2020z1 | 등록번호 111841691 | 도서상태 대출중 | 반납예정일 2021-03-26 | 예약 예약가능 | 서비스 |
컨텐츠정보
책소개
자연어 처리 분야에 입문할 때 필요한 기본기를 닦는 데 많은 도움을 주는 책이다. 텍스트 데이터를 수집하고 전처리하는 과정을 알아보고, 다양한 자연어 처리 알고리즘과 시각화를 적용해 텍스트 데이터에 내재된 지식을 추출하는 방법을 다룬다. 자연어 처리 과정에서 자주 활용하는 SpaCy, 젠심(Gensim)과 같은 라이브러리를 학습해, 실무에서 적용할 수 있는 애플리케이션을 개발할 수 있는 초석을 마련해 줄 것이다.
★ 이 책에서 다루는 내용 ★
■ 데이터 수집, 검증, 정제
■ 파이썬을 활용한 데이터 분석과 머신러닝 작업 수행
■ 전산언어학의 기초 이해
■ 자연어 처리 작업에 대한 일반적인 모델 구현
■ 적절한 평가 지표를 사용한 모델 성능 평가
■ 텍스트 데이터에 대한 시각화, 정량화, 탐색적 분석 수행
★ 이 책의 대상 독자 ★
NLP를 활용한 결과물을 만들고자 텍스트 데이터를 수집하고 분석하려는 초보자와 중급 수준의 데이터 과학자, 머신러닝 개발자 등에게 적합한 책이다. 파이썬에서 데이터 타입, 함수 작성, 라이브러리 불러오기를 사용해 코딩을 해봤다면 내용을 이해하기 좀 더 수월할 것이다. 언어학과 확률에 대한 경험이 있다면 역시 도움이 되겠지만 반드시 필요하지는 않다.
★ 이 책의 구성 ★
이 책은 파이썬 코드로 텍스트를 불러오는 매우 기초적인 작업부터 시작해 NLP에 적합한 형태로 텍스트를 정제, 어간 추출, 토큰화하는 데 필요한 파이프라인에 따라 진행된다. 그런 다음, 가장 일반적으로 사용되는 NLP 라이브러리를 사용해 NLP 통계적 방법, 벡터 표현, 모델 작성 등과 같은 기본기를 다진다. 마지막으로 여러 응용 분야에서 NLP 모델과 코드를 사용하는 실사례를 다룬다.
정보제공 :

저자소개
쇼홈 고시(지은이)
자연어 처리 분야의 전문 지식을 갖춘 열정적인 '데이터 탐정(data detective)'이다. 여러 국제 학회와 저널에서 다수의 논문을 발표했다.
드와이트 거닝(지은이)
미국의 금융 서비스 규제 기관인 FINRA의 데이터 과학자다. NLTK, 젠심(Gensim), spaCy와 같은 가장 널리 사용되는 NLP 도구를 사용해 파이썬 기반 머신러닝과 실무에서 풍부한 경험을 쌓았다.
김창엽(옮긴이)
고려대학교 산업경영공학과 데이터사이언스 & 비즈니스 어낼리틱스(DSBA) 연구실에서 박사 과정을 수료했다. 현재 KT 융합기술원 인프라 연구소에서 머신러닝을 활용한 네트워크 분야 이상 탐지에 대해 연구하고 있다. 그 전에는 안랩에서 9년 동안 근무하며 악성코드 대응 및 침해사고 분석 업무를 수행했다. 번역서로는 에이콘출판사에서 출간한 『예제로 배우는 자연어 처리 기초』(2020), 『머신 러닝을 활용한 컴퓨터 보안』(2019), 『딥러닝 데이터 전처리 입문』(2018), 『케라스로 구현하는 딥러닝과 강화학습』(2017), 『텐서플로 입문』(2016) 등이 있다.
최민환(옮긴이)
고신뢰 무선 통신 및 머신러닝 분야에 대한 관심을 바탕으로 한양대학교 전자통신공학과 내 지능 통신 시스템 연구실(ICSL)에 입학했다. 주로 고신뢰 통신을 위한 다중 안테나 및 다수의 사용자 간 무선 통신 신호 처리에 관한 분석과 실험을 했으며, 머신러닝 기반 변조 분류 기법 관련 연구를 수행한 후 박사 학위를 취득했다. 현재는 KT 융합기술원 인프라 연구소에서 3년 동안 인공지능 기술을 유/무선 네트워크에 접목시킨 연구 개발을 수행하고 있다. 번역한 책으로는 『예제로 배우는 자연어 처리 기초』(에이콘, 2020)가 있다.

목차
"1장. 자연어 처리 소개 __소개 __NLP의 역사 __텍스트 분석과 NLP ____예제 1: 기본적인 텍스트 분석 __NLP의 다양한 단계 ____토큰화 ____예제 2: 단순 문장의 토큰화 ____PoS 태깅 ____예제 3: PoS 태깅 ____불용어 제거 ____예제 4: 불용어 제거 ____텍스트 정규화 ____예제 5: 텍스트 정규화 ____철자 수정 ____예제 6: 단어 및 문장 철자 수정 ____어간 추출 ____예제 7: 어간 추출 ____표제어 추출 ____예제 8: 표제어 추출을 사용해 기본 단어 추출 ____NER ____예제 9: 개체명 취급 ____단어 중의성 해결 ____예제 10: 단어 중의성 해결 ____문장 경계 인식 ____예제 11: 문장 경계 인식 ____실습 1: 원시 텍스트 전처리 __NLP 프로젝트 활성화 ____데이터 수집 ____데이터 전처리 ____피처 추출 ____모델 개발 ____모델 평가 ____모델 배포 __요약 2장. 기본적인 피처 추출 방법 __소개 __데이터 타입 ____구조 기반 데이터 분류 ____내용 기반 데이터의 범주화 __텍스트 데이터 정제 ____토큰화 ____예제 12: 텍스트 정제와 토큰화 ____예제 13: n-그램 추출 ____예제 14: 다른 패키지로 텍스트 토큰화 - 케라스와 TextBlob ____토크나이저의 종류 ____예제 15: 다양한 토크나이저를 사용한 텍스트 토큰화 ____토큰화의 이슈들 ____어간 추출 ____RegexpStemmer ____예제 16: RegexpStemmer를 사용해 진행형 형태의 단어를 기본 단어로 변환 ____포터 형태소 분석기 ____예제 17: 포터 형태소 분석기 ____표제어 추출 ____예제 18: 표제어 추출 ____예제 19: 단어의 단수화와 복수화 ____언어 번역 ____예제 20: 언어 번역 ____불용어 제거 ____예제 21: 불용어 제거 __텍스트로부터 피처 추출 ____원시 텍스트에서 일반적인 피처 추출 ____예제 22: 원시 텍스트에서 일반적인 피처 추출 ____실습 2: 텍스트에서 일반적인 피처 추출하기 ____단어 모음 ____예제 23: BoW 생성 ____지프의 법칙 ____예제 24: 지프의 법칙 ____TF-IDF ____예제 25: TF-IDF 표현 ____실습 3: 텍스트에서 특수한 피처 추출하기 __피처 엔지니어링 ____예제 26: 피처 엔지니어링(텍스트 유사도) ____단어 구름 ____예제 27: 단어 구름 ____다른 시각화 방법들 ____예제 28: 다양한 시각화(종속 구문 분석 트리와 개체명) ____실습 4: 텍스트 시각화 __요약 3장. 텍스트 분류기 개발 __소개 __머신러닝 ____비지도 학습 ____계층적 군집화 ____예제 29: 계층적 군집화 ____K-평균 군집화 ____예제 30: K-평균 군집화 ____지도 학습 ____분류 ____로지스틱 회귀 ____나이브 베이즈 분류기 ____K-최근접 이웃 ____예제 31: 텍스트 분류(로지스틱 회귀, 나이브베이즈, KNN) ____회귀 ____선형 회귀 ____예제 32: 텍스트 데이터를 사용한 회귀분석 ____트리 기반 방법 ____랜덤 포레스트 ____GBM과 XGBoost ____예제 33: 트리 기반 방법(의사 결정 트리, 랜덤 포레스트, GBM, XGBoost) ____샘플링 ____예제 34: 샘플링(단순 무작위 추출법, 층화 추출법, 다단계 추출법) __텍스트 분류기 개발 ____피처 추출 ____피처 엔지니어링 ____상호 연관된 피처 제거 ____예제 35: 높은 상관관계 피처들 제거(토큰) ____차원 축소 ____예제 36: 차원 축소(PCA) ____모델 유형 결정 ____모델 성능 평가 ____예제 37: RMSE와 MAPE 계산 ____실습 5: 엔드 투 엔드 텍스트 분류기 개발 __NLP 프로젝트를 위한 파이프라인 구축 ____예제 38: NLP 프로젝트를 위한 파이프라인 구축 __모델 저장 및 불러오기 ____예제 39: 모델 저장 및 불러오기 __요약 4장. 웹에서 텍스트 데이터 수집하기 __소개 __웹 페이지를 스크래핑해 데이터 수집하기 ____예제 40: HTML 파일에서 태그 기반 정보 추출하기 __웹 페이지에서 내용 불러오기 ____예제 41: 온라인 텍스트 데이터 수집 ____예제 42: 주피터 노트북의 내용 분석하기(HTML 형식) ____실습 6: 온라인 HTML 페이지에서 정보 추출하기 ____실습 7: 정규 표현식을 사용해 데이터 추출 및 분석하기 __준정형 데이터 다루기 ____JSON ____예제 43: JSON 파일 다루기 ____실습 8: 온라인 JSON 파일 다루기 ____XML ____예제 44: 로컬에 있는 XML 파일 다루기 ____API를 사용해 실시간 데이터 불러오기 ____예제 45: API를 사용한 데이터 수집 ____API 생성 ____실습 9: 트위터에서 데이터 추출하기 ____로컬 파일에서 데이터 추출하기 ____예제 46: 로컬 파일에서 데이터 추출하기 ____예제 47: 로컬 파일에 다양한 작업 수행 __요약 5장. 토픽 모델링 __소개 __토픽 찾기 ____테마 찾기 ____탐색적 데이터 분석 ____문서 군집화 ____차원 축소 ____역사 분석 ____단어 모음 __토픽 모델링 알고리즘 ____잠재 의미 분석 ____LSA - 동작 방식 ____예제 48: 잠재 의미 분석을 활용한 로이터 뉴스 기사 분석 ____잠재 디리클레 할당 ____LDA 동작 방식 ____예제 49: 항공사 트윗에 있는 토픽 ____토픽 핑거프린팅 ____예제 50: 토픽 벡터를 사용한 문서 시각화 ____실습 10: 제퍼디 질문에 대한 토픽 모델링 __요약 6장. 텍스트 요약과 텍스트 생성 __소개 __자동 텍스트 요약이란? ____자동 텍스트 요약의 이점 __텍스트 요약의 고수준 뷰 ____목적 ____입력 ____출력 ____추출적 텍스트 요약 ____추상적 텍스트 요약 ____시퀀스 투 시퀀스 ____인코더-디코더 __TextRank ____예제 51: TextRank 기초 __젠심을 사용한 텍스트 요약 ____실습 11: 젠심 텍스트 요약기를 사용해 다운로드한 페이지 요약하기 __단어 빈도를 이용한 텍스트 요약 ____예제 52: 단어 빈도수 텍스트 요약 __마르코프 체인을 사용한 텍스트 생성 ____마르코프 체인 ____예제 53: 마르코프 체인을 사용한 텍스트 생성 __요약 7장. 벡터 표현 __소개 __벡터 정의 __벡터 표현을 사용하는 이유 ____인코딩 ____문자 수준 인코딩 ____예제 54: ASCII 값을 사용한 문자 인코딩 ____예제 55: 넘파이 배열을 사용한 문자 수준 인코딩 ____위치 기반 문자 수준 인코딩 ____예제 56: 위치를 사용한 문자 수준 인코딩 ____원핫 인코딩 ____원핫 인코딩의 주요 단계 ____예제 57: 문자 원핫 인코딩 - 수동적인 방법 ____예제 58: 케라스를 활용한 문자 수준 원핫 인코딩 ____단어 수준 원핫 인코딩 ____예제 59: 단어 수준 원핫 인코딩 ____단어 임베딩 ____Word2Vec ____예제 60: 단어 벡터 학습 ____사전 학습된 단어 벡터 사용 ____예제 61: 사전 학습된 단어 벡터 불러오기 ____문서 벡터 ____문서 벡터의 활용 ____예제 62: 영화 대화를 문서 벡터로 변환하기 ____실습 12: 문서 벡터를 활용해 유사한 영화 대사 찾기 __요약 8장. 감성 분석 __소개 __왜 감성 분석이 필요한가? __감성 분석의 성장 ____감성의 수익 창출 ____감성의 유형 ____주요 아이디어와 용어 ____감성 분석의 응용 분야 __감성 분석에 사용하는 도구들 ____주요 클라우드 제공업체의 NLP 서비스 ____온라인 마켓플레이스 ____파이썬 NLP 라이브러리 ____딥러닝 라이브러리 __TextBlob ____예제 63: TextBlob 라이브러리를 사용한 기본적인 감성 분석 ____실습 13: TextBlob 라이브러리를 사용해 트윗 감성 분석하기 __감성 분석 데이터의 이해 ____예제 64: 감성 분석 데이터 불러오기 __감성 모델 학습 ____예제 65: TF-IDF와 로지스틱 회귀를 사용한 감성 모델 학습 __요약 부록