목차
1 검색엔진과 정보 검색 = 1
1.1 정보 검색이란? = 1
1.2 주요 쟁점 = 4
1.3 검색엔진 = 8
1.4 검색 공학자 = 11
2 검색엔진의 구조 = 15
2.1 구조란 무엇인가? = 15
2.2 기본 구성요소 = 16
2.3 세부 구성요소 = 19
2.3.1 텍스트 획득 = 20
2.3.2 텍스트 변환 = 22
2.3.3 색인 생성 = 26
2.3.4 사용자 상호작용 = 28
2.3.5 순위 부여 = 30
2.3.6 평가 = 31
2.4 구성요소들이 구체적으로 어떻게 작동하는가 = 32
3 문서 수집 = 35
3.1 무엇을 검색해야 하는가 = 35
3.2 웹 문서 수집 = 36
3.2.1 웹 문서의 추출 = 37
3.2.2 웹 수집기 = 38
3.2.3 웹 문서의 신선도 = 42
3.2.4 집중 수집 = 46
3.2.5 심층 웹 = 47
3.2.6 사이트맵 = 49
3.2.7 분산 수집 = 51
3.3 문서와 이메일의 수집 = 52
3.4 문서 피드 = 54
3.5 변환 문제 = 56
3.5.1 문자 인코딩 = 58
3.6 문서의 저장 = 60
3.6.1 데이터베이스 시스템 사용하기 = 61
3.6.2 임의 접근 = 62
3.6.3 압축과 대형 파일 = 62
3.6.4 갱신 = 65
3.6.5 BigTable = 66
3.7 중복 문서 탐지 = 69
3.8 텍스트 처리 noise 제거 = 73
4 텍스트 처리 = 85
4.1 단어에서 색인어로 = 85
4.2 텍스트 통계 = 87
4.2.1 어휘수 증가 = 93
4.2.2 컬렉션과 결과 집합 크기 추정 = 95
1.3 문서 파싱 = 100
4.3.1 개요 = 100
4.3.2 토큰화 = 101
4.3.3 불용어 제거 = 104
4.3.4 스테밍 = 106
4.3.5 구와 n그램 = 112
4.4 문서 구조와 마크업 = 117
4.5 링크 분석 = 121
4.5.1 앵커 텍스트 = 122
4.5.2 PageRank = 122
4.5.3 링크 품질 = 130
4.6 정보 추출 = 132
4.6.1 추출을 위한 은닉 마르코프 모델 = 134
4.7 국제화 = 137
5 색인을 이용한 순위 부여 = 145
5.1 개관 = 145
5.2 기본 순위 부여 모델 = 146
5.3 역색인 = 150
5.3.1 문서 = 152
5.3.2 카운트 = 154
5.3.3 위치 = 155
5.3.4 필드와 익스텐트 = 157
5.3.5 점수 = 160
5.3.6 순서 = 161
5.4 압축(Compression) = 161
5.4.1 Emtropy and Ambiguity = 163
5.4.2 델타 인코딩(Delta Encoding) = 165
5.4.3 비트 정렬 코드(Bit-Aligned Codes) = 167
5.4.4 바이트 정렬 코드(Byte-Aligned Codes) = 171
5.4.5 실전에서의 압축 = 173
5.4.6 압축에 대한 전망 = 174
5.4.7 스킵하기와 스킵 포인터 = 175
5.5 보조 구조(Auxiliary Structures) = 179
5.6 인텍스 생성(Index Construction) = 18
5.6.1 간단한 생성 = 181
5.6.2 합병(Merging) = 183
5.6.3 병렬 처리와 분산 시스템(Parallelism and Distribution) = 185
5.6.4 업데이트(Update) = 193
5.7 질의 처리 = 195
5.7.1 한 번에 한 문서 평가 = 196
5.7.2 한 번에 한 단어 평가 = 198
5.7.3 최적화 기법들 = 201
5.7.4 구조화된 질의 = 210
5.7.5 분산 평가 = 212
5.7.6 캐싱(cashing) = 214
6 질의와 인터페이스 = 221
6.1 정보 요구와 질의 = 221
6.2 질의 변형(Transformation)과 정련(Refinement) = 224
6.2.1 불용어 제거와 스테밍의 재고(Revisited) = 224
6.2.2 철자 검사와 제안 = 228
6.2.3 질의 확장 = 235
6.2.4 적합성 피드백 = 244
6.2.5 문맥과 개인화 = 248
6.3 결과 출력 = 252
6.3.1 결과 페이지와 스니펫 = 252
6.3.2 광고와 검색 = 256
6.3.3 클러스터링과 결과 = 260
6.4 교차 언어 검색 = 263
7 검색 모델 = 273
7.1 검색 모델 개요 = 273
7.1.1 불리언 검색 = 275
7.1.2 벡터 공간 모델 = 278
7.2 확률 기반 모델 = 278
7.2.1 분류로서의 정보 검색 = 285
7.2.2 BM25 순위 부여 알고리즘 = 291
7.3 언어 모델에 기반한 순위 부여 = 294
7.3.1 질의 가능도 순위 부여 = 297
7.3.2 적합성 모델과 의사 적합성 피드백 = 304
7.4 복합 질의와 증거 결합 = 311
7.4.1 추론 네트워크 모델 = 312
7.4.2 Galago 질의 언어 = 317
7.5 웹 검색 = 325
7.6 기계학습과 정보 검색 = 330
7.6.1 순위 부여 학습 = 331
7.6.2 주제 모델과 어휘 불일치 = 335
7.7 애플리케이션 기반 모델 = 339
8 검색엔진의 평가(Evaluating search engine) = 347
8.1 왜 평가를 하는가?(Why Evaluate?) = 347
8.2 평가 말뭉치(The evaluation corpus) = 350
8.3 Logging = 357
8.4 효과성 통계(effectiveness Metrics) = 360
8.4.1 재현율(recall)과 정확률(precision) = 360
8.4.2 평균화(Averaging)와 보간(interpolation) = 366
8.4.3 상위 문서에 집중 = 371
8.4.4 선호도(Using preferences) = 371
8.5 효과성(efficiency) 측정 기준(Metrics) = 377
8.6 훈련(Training), 실험(Testing), 그리고 확률(Statistics) = 380
8.6.1 유의성 점검(significance test) = 380
8.6.2 매개변수 값(parameter value)의 설정 = 386
8.6.3 online testing(온라인 테스트) = 388
8.7 The Bottom Line = 389
9 분류(classification), 필터링(filtering) 그리고 스팸(spam) = 395
9.1 분류와 범주화 = 397
9.1.1 나이브 베이즈(Naive Bayes) 분류 = 399
9.1.2 지지 벡터 기계(Support Vector Machine) = 409
9.1.3 평가(evaluation) = 419
9.1.4 분류기와 자질 선택 = 420
9.1.5 스팸, 의견, 그리고 온라인 광고 = 425
9.2 클러스터링 = 436
9.2.1 Hierarchical and K-Means clustering(클러스터링) = 437
9.2.2 K 최근접 이웃 클러스터링(K nearest neighbor clustering) = 449
9.2.3 평가(evalution) = 451
9.2.4 K를 어떻게 선택할 것인가? = 543
9.2.5 클러스터링 및 검색(search) = 455
10 소셜 검색 = 463
10.1 소셜 검색은 무엇인가? = 463
10.2 사용자 태그와 수동 색인 = 466
10.2.1 태그 검색 = 469
10.2.2 누락된 태그 추론하기 = 472
10.2.3 브라우징과 태그 클라우드 = 474
10.3 커뮤니티 검색 = 476
10.3.1 커뮤니티는 무엇인가? = 476
10.3.2 커뮤니티 찾기 = 477
10.3.3 커뮤니티 기반 질의 응답 = 484
10.3.4 협업 검색 = 490
10.4 필터링과 추천 시스템 = 493
10.4.1 문서 필터링 = 493
10.4.2 협업 필터링 = 504
10.5 P2P와 메타 검색 = 511
10.5.1 분산 검색 = 511
10.5.2 P2P 네트워크 = 515
11 단어백, 그 이후의 검색 = 525
11.1 개요 = 525
11.2 자질 기반 검색 모델 = 526
11.3 단어 의존 모델 = 529
11.4 구조의 재고 = 534
11.4.1 XML 검색 = 537
11.4.2 개체 검색 = 539
11.5 긴 질문, 좋은 대답 = 542
11.6 단어, 그림, 그리고 음악 = 546
11.7 모든 것을 만족하는 하나의 검색? = 556
References = 563
색인 = 593