
000 | 00000cam c2200205 c 4500 | |
001 | 000046020323 | |
005 | 20221230082922 | |
007 | ta | |
008 | 200309s2019 ulka b 000c kor | |
020 | ▼a 9791189057145 ▼g 93560 | |
035 | ▼a (KERIS)REQ000048882635 | |
040 | ▼a 223009 ▼c 223009 ▼d 223009 ▼d 211009 | |
082 | 0 4 | ▼a 006.31 ▼2 23 |
085 | ▼a 006.31 ▼2 DDCK | |
090 | ▼a 006.31 ▼b 2019z40 | |
100 | 1 | ▼a 임희석, ▼g 林希錫, ▼d 1969- ▼0 AUTH(211009)68972 |
245 | 1 0 | ▼a 자연어처리 바이블 = ▼x Natural language processing bible : ▼b 핵심이론 응용시스템 딥러닝 / ▼d 임희석, ▼e 고려대학교 자연어처리연구실 저 |
260 | ▼a 서울 : ▼b 휴먼싸이언스, ▼c 2019 ▼g (2020) | |
300 | ▼a xiii, 555 p. : ▼b 삽화 ; ▼c 25 cm | |
440 | 0 0 | ▼a 고려대학교 정보대학 교재시리즈 |
504 | ▼a 참고문헌 수록 | |
710 | ▼a 고려대학교. ▼b 자연어처리연구실, ▼e 저 | |
945 | ▼a KLPA |
Holdings Information
No. | Location | Call Number | Accession No. | Availability | Due Date | Make a Reservation | Service |
---|---|---|---|---|---|---|---|
No. 1 | Location Main Library/Monographs(3F)/ | Call Number 006.31 2019z40 | Accession No. 111873330 | Availability In loan | Due Date 2023-10-05 | Make a Reservation Available for Reserve | Service |
No. 2 | Location Science & Engineering Library/Sci-Info(Stacks1)/ | Call Number 006.31 2019z40 | Accession No. 121252584 | Availability In loan | Due Date 2023-10-10 | Make a Reservation Available for Reserve | Service |
No. 3 | Location Science & Engineering Library/Sci-Info(Stacks1)/ | Call Number 006.31 2019z40 | Accession No. 121253275 | Availability In loan | Due Date 2023-09-15 | Make a Reservation | Service |
No. 4 | Location Science & Engineering Library/Sci-Info(Stacks1)/ | Call Number 006.31 2019z40 | Accession No. 121254646 | Availability In loan | Due Date 2023-10-07 | Make a Reservation | Service |
No. 5 | Location Sejong Academic Information Center/Science & Technology/ | Call Number 006.31 2019z40 | Accession No. 151354256 | Availability Available | Due Date | Make a Reservation | Service |
No. | Location | Call Number | Accession No. | Availability | Due Date | Make a Reservation | Service |
---|---|---|---|---|---|---|---|
No. 1 | Location Main Library/Monographs(3F)/ | Call Number 006.31 2019z40 | Accession No. 111873330 | Availability In loan | Due Date 2023-10-05 | Make a Reservation Available for Reserve | Service |
No. | Location | Call Number | Accession No. | Availability | Due Date | Make a Reservation | Service |
---|---|---|---|---|---|---|---|
No. 1 | Location Science & Engineering Library/Sci-Info(Stacks1)/ | Call Number 006.31 2019z40 | Accession No. 121252584 | Availability In loan | Due Date 2023-10-10 | Make a Reservation Available for Reserve | Service |
No. 2 | Location Science & Engineering Library/Sci-Info(Stacks1)/ | Call Number 006.31 2019z40 | Accession No. 121253275 | Availability In loan | Due Date 2023-09-15 | Make a Reservation | Service |
No. 3 | Location Science & Engineering Library/Sci-Info(Stacks1)/ | Call Number 006.31 2019z40 | Accession No. 121254646 | Availability In loan | Due Date 2023-10-07 | Make a Reservation | Service |
No. | Location | Call Number | Accession No. | Availability | Due Date | Make a Reservation | Service |
---|---|---|---|---|---|---|---|
No. 1 | Location Sejong Academic Information Center/Science & Technology/ | Call Number 006.31 2019z40 | Accession No. 151354256 | Availability Available | Due Date | Make a Reservation | Service |
Contents information
Book Introduction
크게 세 가지 파트로 구성되었다. 첫 번째 파트에서는 자연어처리를 배우기 위하여 필요로 하는 수학, 언어학 등의 기본 지식과 파이프라인 방식의 자연어처리를 위한 각 단계들에 대한 핵심 원리를 설명한다.
두 번째 파트에서는 자연어처리 기술을 활용하여 개발될 수 있는 여러 가지 응용 시스템을 설명하고, 각 시스템의 기본 원리를 설명하였다. 이미지처리 영역에서 높은 성과를 보였던 딥러닝 기술이 최근에는 자연어처리 기술에도 활발하게 적용되고 있다.
세 번째 파트에서는 딥러닝 기술의 원리와 딥러닝 기술을 이용한 자연어처리 기술에 대하여 설명한다. 여기서는 첫 번째 파트에서 소개된 자연어처리의 각 단계의 기술들이 어떻게 딥러닝 기술을 이용하여 개발되어질 수 있는지를 중심으로 설명한다.
머리말
저자는 1990년대 초 대학원에 진학해서 자연어처리에 대한 연구와 공부를 시작했다. 당시 주변 사람들에게 자연어처리를 연구한다고 하면 컴퓨터학을 연구하는 사람들조차도 바로 알아듣는 사람들이 많지 않은 실정이었다. 하지만 요즘은 학계와 산업계뿐만 아니라 일반인들 중에서도 자연어처리에 대해서 관심을 갖고 공부하고 관련 기술을 습득하기를 원하는 사람들이 늘어나고 있는 상황이다. 자연어처리가 왜 중요하게 여겨지고 관심을 받고 있는 걸까? 사람의 지능에 가깝고 또 능가하는 인공지능을 개발하기 위해서는 세상에 대한 지식(world knowledge)을 컴퓨터가 사용할 수 있도록 표현하는 기술(knowledge representation)과 세상으로부터 지식을 자동으로 획득하는 지식 획득 기술(knowledge acquisition)이 매우 중요하다. 대부분의 세상 지식은 자연어로 기술되어 있다. 따라서 자연어를 이해하여 세상 지식으로 변환하는데 필수적인 자연어처리 기술이 인공지능 개발에 있어서 대단히 중요하다. 또한 사람과 컴퓨터간의 자연스러운 사용자 인터페이스 중에서 언어를 이용한 인터페이스가 매우 중요하다. 컴퓨터가 사람이 이야기한 내용을 알아듣고 사람들이 이해하기 쉬운 자연어 구사를 가능케 하는 자연어처리 기술은 사람들이 컴퓨터 사용법을 배우거나 프로그래밍 언어를 배워야 하는 어려움을 없애줄 수 있다. 위에서 기술한 두 가지 이외에도 인공지능 시대에서의 자연어처리 기술의 역할은 매우 크다.
자연어처리 기술의 중요성과 관심이 높아지는 상황에 비해 한국인들이 쉽게 자연어처리를 배울 수 있는 한국어로 쓰여진 자연어처리 교재가 거의 전무한 상황이다. 또한 한국어 자연어처리를 위해서 알아야 할 한국어 특성을 반영한 자연어처리의 원리와 개념을 배울 수 있는 교재도 많지 않은 실정이다. 본 서는 한국의 학생, 연구원, 그리고 학자들이 좀 더 쉽게 자연어처리를 습득할 수 있고, 한국어의 특성을 반영한 자연어처리를 배울 수 있기를 희망하며 집필되었다.
본 서는 크게 세 가지 파트로 구성되었다. 첫 번째 파트에서는 자연어처리를 배우기 위하여 필요로 하는 수학, 언어학 등의 기본 지식과 파이프라인 방식의 자연어처리를 위한 각 단계들에 대한 핵심 원리를 설명한다. 두 번째 파트에서는 자연어처리 기술을 활용하여 개발될 수 있는 여러 가지 응용 시스템을 설명하고, 각 시스템의 기본 원리를 설명하였다. 이미지처리 영역에서 높은 성과를 보였던 딥러닝 기술이 최근에는 자연어처리 기술에도 활발하게 적용되고 있다. 세 번째 파트에서는 딥러닝 기술의 원리와 딥러닝 기술을 이용한 자연어처리 기술에 대하여 설명한다. 여기서는 첫 번째 파트에서 소개된 자연어처리의 각 단계의 기술들이 어떻게 딥러닝 기술을 이용하여 개발되어질 수 있는지를 중심으로 설명한다.
매우 부족하지만 본 서의 초판을 집필하면서 한국어 자연어처리 연구와 교육을 하는 사람으로서 한국어로 된 교재를 쓰지 못해 가졌던 부담과 짐을 조금은 덜 수 있을 것 같다. 방대한 양의 본 서를 출판하는 데에는 각 맡은 부분에 대한 내용을 조사하고 연구하고 집필한 고려대학교 NLP & AI Lab.의 모든 구성원의 역할이 매우 지대했음을 밝히지 않을 수 없다. 그들이 없었으면 본 서는 세상의 빛을 보지 못했을 것이다. 지면관계상 모든 사람들의 이름을 밝히지 못함에 용서를 구한다. 또한 오랫동안 우유부단하게 책 집필을 시작하지 못한 저자를 움직이게 하고, 또 후원해주신 인성 유휘성 회장님께 감사의 말씀을 전한다. 늘 남편을 응원하고 사랑해주는 아내, 삶의 기업처럼 든든한 아들과 딸에게도 무한한 감사의 마음을 전한다. 마지막으로 저자를 포함한 모든 공동 저자들에게 학문과 연구를 하고, 아는 것을 글로 잘 표현할 수 있는 지혜를 주신 하나님께 감사드리며 그 분께 모든 영광을 돌린다.
2019년 12월 30일
대표저자 임희석
책 활용하기
본 서는 자연어처리의 핵심 원리, 응용시스템, 그리고 딥러닝 기반 자연어처리까지 자연어처리의 모든 분야를 다루고자 노력하였다. 참고문헌은 쉽게 찾아볼 수 있도록 각 장의 마지막에 배치되었으며 경우에 따라 동일한 참고문헌이 다른 장 뒤에서 중복해서 기술되었다. 각 장의 마지막에는 참고문헌뿐만 아니라 연습문제도 제시하여 학습한 내용을 스스로 점검할 수 있도록 노력하였으나 연습문제가 없는 장들도 있다. 본 서는 독자들에게 이론뿐만 아니라 직접 실습하고 코드를 돌려 볼 수 있도록 소스 코드와 실행 결과를 포함하고 있는 실습 과제를 개발하여 추가하였다. 저자들은 독자들이 코드를 직접 실행시켜보고 결과를 분석하는 것이 이론을 이해하는데 큰 도움이 된다는 것을 확신하여 실습 과제 개발에도 많은 시간을 투자하였다. 본 서에서 설명하는 용어는 영어 표현이 많다. 용어들을 가능한 한국어포 번역하여 기술하였지만 한국어로 번역하는 경우 오히려 의미가 모호해지거나 이해가 어렵게 변하는 경우 영어로 기술하기도 하였다. 영어 표현을 외래어(예: 데이타)로 표현하기도 하였으며, 영어를 외래어로 표현할 때 발음상 동일한 용어가 다른 표현으로 기술(예: 데이터, 데이터) 되기도 하였다.
자연어처리는 인공지능, 기계학습 그리고 데이터분석 등 컴퓨터학의 다른 주제들과 긴밀한 관계를 갖고 있다. 따라서 독자들의 이해를 돕기 위해서 필요한 경우 각 주제들에 대해서도 간단하게 설명했다. 하지만 참고문헌을 중심으로 독자들이 부족한 부분을 추가적으로 학습할 필요가 있을 것이다. 특히 기계학습과 딥러닝의 기본적인 원리와 알고리즘은 본 서의 내용과 병행하여 학습하거나 선행 학습하기를 권장하는 바이다.
본 서는 학부생, 대학원생, 그리고 연구원들뿐만 아니라 자연어처리에 관심이 있는 누구나 활용할 수 있도록 집필되었다. 학부생을 위한 수업에서는 ‘파트 I: 자연어처리 핵심 이론’과 ‘파트 II : 자연어처리 응용시스템’만 다루어질 수 있을 것 같다. 자연어처리 응용 시스템 개발에 관심이 있는 독자들은 파트 II를 학습하고 필요하면 파트 I과 파트 III를 공부하면 좋겠다. 대학원생들은 ‘파트 III : 딥러닝 기반 자연어처리’를 공부하고 각 장에 해당하는 내용의 최신 모델을 설명하는 논문과 공개된 코드들을 활용하여 학습하길 권장한다. 각 장을 학습 후 모든 독자는 부록으로 제시되는 실습 과제들을 수행하길 적극 권장한다. 처음에는 책에 제시된 코드를 그대로 실행하는 것도 어려울 수 있는데, 그런 어려움을 직접 해결하는 과정을 통해서도 많은 것을 배울 수 있으리라 확신한다.
비록 자연어처리의 많은 분야에 대해서 이론, 실습, 그리고 응용시스템에 대해서 다루고자 한 본 서도 제대로 된 자연어처리를 배우기 위해서는 현저하게 부족하리라 생각한다. 하지만 본 서에서 다루는 이론과 실습 과제를 모두 독파하길 바란다. 다음은 관련 내용의 최신 논문의 이론과 코드를 찾아서 학습하고 재현 실습을 하고, 해당 내용의 문제점을 찾고 그 문제를 해결할 수 있는 방안을 고안하여 개발할 수 있는 능력을 확보하길 바란다. 그 정도의 실력을 갖추게 된 독자는 자연어처리 전문가 확보를 위하여 고심하고 있는 국내의 유수의 기업은 물론이고 글로벌 기업들에 의해서 환영받는 경쟁력 있는 인재들이 될 수 있으리라 확신한다. 부디 많은 독자들에게 그런 기회가 되는 발판이 되는 본 서가 되길 희망한다.
Information Provided By: :

Author Introduction
임희석(지은이)
2008년부터 고려대학교 컴퓨터학과 교수로 재직 중이다. 1992년 고려대학교 컴퓨터학과를 졸업하고, 97년 동대학원에서 박사학위를 받았다. 한국컴퓨터교육학회 논문지의 편집위원장을 역임하였으며, 현재 Human inspired AI 연구소장과 한국융합학회 부회장으로 활동 중이다. 주요 연구분야는 자연어처리, 인공지능, 정보검색, 뇌 신경 언어처리이다. 저서로는 알기 쉬운 컴퓨팅 사고력(Human Science, 2017년), 컴퓨팅 사고력과 일상의 빅데이터(Human Science, 2016년), 도와주세요! 아이폰이 생겼어요(시리즈)(한빛미디어, 2010년~11년), 번역서로는 검색엔진:최신정보검색론(Human Science, 2011년), C++를 이용한 데이터 구조 및 알고리즘 분석(홍릉과학출판사, 2010년)이 있으며, 중학교 정보 교과서(천재교육, 2017년), 고등학교 정보 교과서(천재교육, 2017년), 중학교 정보 교과서(비상교육, 2018년) 그리고 고등학교 정보 교과서(비상교육, 2018년)를 집필하였다.
고려대학교 자연어처리연구실(지은이)

Table of Contents
PART I 자연어처리 핵심 이론 CHAPTER 1 자연어처리의 기본 3 1.1 자연어처리란 3 1.2 자연어처리의 응용 분야 6 1.3 자연어처리는 왜 어려운가? 8 1.4 자연어처리 연구의 패러다임 11 1.5 딥러닝을 사용하는 자연어처리 연구 15 참고문헌 18 CHAPTER 2 자연어처리를 위한 수학 21 2.1 확률의 기초 21 2.2 MLE와 MAP 28 2.3 정보이론과 엔트로피 31 참고문헌 36 CHAPTER 3 언어학의 기본 원리 37 3.1 언어학 개요 37 3.2 음절, 형태소, 어절 그리고 품사 37 3.3 구구조와 의존구조 45 3.4 의미론과 화용론 47 참고문헌 49 CHAPTER 4 텍스트의 전처리 51 4.1 비정형 데이터 내의 오류 51 4.2 텍스트 문서의 변환 53 4.3 띄어쓰기 교정 방법 55 4.4 철자 및 맞춤법 교정방법 59 참고문헌 64 CHAPTER 5 어휘 분석(Lexical Analysis) 67 5.1 형태소 분석(Morphological Analysis) 67 5.2 품사 태깅 72 5.3 형태소 분석 및 품사 태깅기의 활용 분야 85 참고문헌 85 CHAPTER 6 구문 분석 87 6.1 구문 분석 개요 87 6.2 구구조 구문 분석 90 6.3 의존 구문 분석 97 6.4 구문 분석 접근 방법의 장단점 101 6.5 더 알아보기 102 참고문헌 105 CHAPTER 7 의미 분석 107 7.1 단어와 단어 의미 중의성 107 7.2 단어 의미 중의성 해소 기법 108 7.3 의미역(Semantic Role) 분석 114 7.4 의미표현 116 참고문헌 120 자연어처리 응용시스템 CHAPTER 8 개체명 인식(Named Entity Recognition) 125 8.1 개체명 인식 소개 125 8.2 개체명 인식이란 126 8.3 NER 시스템 128 8.4 NER 평가 척도 135 8.5 BIO Tagging Scheme 136 8.6 학습 코퍼스 136 참고문헌 139 CHAPTER 9 언어 모델(Language Model) 141 9.1 언어 모델이란? 141 9.2 통계적 언어 모델 141 9.3 일반화(Generalization) 152 9.4 모델 평가와 퍼플렉서티(Perplexity) 155 참고문헌 158 CHAPTER 10 정보추출(Information Extraction) 159 10.1 정보추출이란 159 10.2 정보추출의 학습 방법 160 10.3 관계 추출(Relation Extraction) 162 10.4 정보추출(관계 추출)의 접근법 163 참고문헌 168 CHAPTER 11 질의응답(Question & Answering) 171 11.1 질의응답(Question & Answering)이란 171 11.2 정보검색 기반 질의응답 172 참고문헌 181 CHAPTER 12 기계 번역(Machine Translation) 183 12.1 기계 번역이란 183 12.2 규칙 기반 기계번역 185 12.3 통계 기반 기계번역 187 12.4 구 기반 번역 192 12.5 통계 모델을 이용한 실제 문장 번역 193 참고문헌 194 CHAPTER 13 자연어 생성 197 13.1 배경 197 13.2 지도 학습 기반 자연어 생성 199 13.3 강화 학습 기반 자연어 생성 203 13.4 적대 학습 기반 자연어 생성 205 참고문헌 208 CHAPTER 14 대화 시스템(Dialog System) 209 14.1 대화 시스템 개론 209 14.2 대화 시스템의 분류 218 참고문헌 221 CHAPTER 15 문서 요약(Text Summarization) 223 15.1 문서 요약이란 223 15.2 문서 요약 방법 224 15.3 접근법 232 15.4 평가 236 참고문헌 237 CHAPTER 16 텍스트 분류(Text Categorization) 239 16.1 텍스트 분류란? 239 16.2 일상 속 텍스트 분류 241 16.3 감정분석이란 무엇인가? 242 16.4 다양한 텍스트 분류 예시 244 16.5 텍스트 분류 프로세스 245 16.6 텍스트 분류, 군집화 알고리즘 248 16.7 Scikit-Learn 252 16.8 데이터 시각화 253 참고문헌 255 PART III 딥러닝 기반 자연어처리 CHAPTER 17 딥러닝의 소개 259 17.1 딥러닝 개요 259 17.2 딥러닝 모델의 핵심: 자동적인 계층적 자질 표상 습득 261 17.3 딥러닝 시스템 구축을 위한 고려 사항: 데이터와 모델 구조 263 17.4 딥러닝 모델의 뼈대: 퍼셉트론 265 17.5 비선형 결정 경계와 활성 함수 267 17.6 딥러닝 모델의 학습 268 참고문헌 269 CHAPTER 18 단어 임베딩 273 18.1 단어 임베딩이란? 273 18.2 분포 가설과 언어 모델링 275 18.3 Word2vec 이전의 단어 임베딩 275 18.4 Word2vec부터 ELMo 이전까지의 임베딩: 단어 단위 임베딩 277 18.5 ELMo 이후의 임베딩: 문장 단위 임베딩 279 18.6 한국어의 단어 임베딩과 입력의 최소 단위 283 18.7 최신 연구 동향 284 참고문헌 285 CHAPTER 19 합성곱 신경망(Convolutional Neural Networks, CNN) 289 19.1 CNN 개념 289 19.2 CNN을 이용한 문장 분류 294 참고문헌 299 CHAPTER 20 순환 신경망(Recurrent Neural Networks, RNN) 301 20.1 기본 순환 신경망(Vanilla Recurrent Neural Networks) 301 20.2 응용 순환 신경망(Advanced Recurrent Neural Networks) 305 20.3 순환 신경망 기반 자연어 생성 310 참고문헌 312 CHAPTER 21 딥러닝 기반 한국어 형태소 분석과 품사 태깅 315 21.1 형태소 분석 품사 태깅 개요 315 21.2 KoNLPy 형태소 분석 도구 소개[1] 318 21.3 딥러닝 이전의 형태소 분석, 품사 태깅 소개 318 21.4 딥러닝 기반 형태소 분석, 품사 태깅 소개 320 참고문헌 324 CHAPTER 22 딥러닝 기반 한국어 단어의미 분석 327 22.1 한국어 의미역 분석 327 22.2 심층학습 기반 단어 중의성 해소 331 참고문헌 336 CHAPTER 23 딥러닝 기반 개체명 인식(NER) 337 23.1 딥러닝 기반 NER 337 23.2 단어 단위의 구조 337 23.3 문자 단위의 구조 338 23.4 단어+문자 단위의 구조 339 참고문헌 340 CHAPTER 24 딥러닝 기반 Question & Answering 341 24.1 딥러닝 기반 Question & Answering 341 24.2 딥러닝 기반 Question & Answering 모델 343 24.3 시각 질의응답(Visual Question Answering, VQA) 346 참고문헌 350 CHAPTER 25 딥러닝 기반 기계번역 353 25.1 기계번역 소개 및 흐름 353 25.2 딥러닝 기반 기계번역의 흐름 354 25.3 Sequence to Sequence 구조와 인코더 디코더 356 25.4 RNN 기반 Neural Machine Translation 357 25.5 Attention의 등장 358 25.6 Transformer 361 25.7 Self-Attention 363 25.8 Multi Head Attention 365 25.9 Positional Encoding 366 25.10 Residual & Layer Normalization 367 25.11 Decoder 368 25.12 Linear Layer & Softmax 368 참고문헌 370 CHAPTER 26 딥러닝 기반 문장생성 373 26.1 순환 신경망 언어 모델을 이용한 문장 생성 374 26.2 셀프 어텐션 기반 언어 모델을 이용한 문장 생성 378 참고문헌 381 CHAPTER 27 딥러닝 기반 문서 요약(Text Summarization) 383 27.1 딥러닝 기반 문서 요약의 동향 383 27.2 딥러닝 기반의 추상 요약 384 참고문헌 392 CHAPTER 28 딥러닝 기반 대화 시스템 393 28.1 목적 지향 대화 시스템(Task-Oriented Dialogue System) 394 28.2 비목적 지향 대화 시스템(챗봇 시스템) 399 참고문헌 404 CHAPTER 29 딥러닝을 이용한 SNS(Social Network Service) 분석 407 29.1 SNS 407 29.2 SNS 분석 409 29.3 SNS 분석 기법 410 참고문헌 417 CHAPTER 30 응용: 이미지 캡션 생성 419 30.1 이미지 캡션 생성 개요 419 30.2 이미지 캡션 생성 과정 422 30.3 이미지 캡션 생성 모델: Show & Tell 425 30.4 훈련에 따른 성능변화 429 참고문헌 432 실습 435