목차
1. 소개
1.1 크롤링과 색인 = 10
1.2 토픽 디렉토리 = 12
1.3 클러스터링과 분류 = 14
1.4 하이퍼링크 분석 = 16
1.5 자원발견과 수직 포털 = 18
1.6 구조적 대 비구조적 데이터마이닝 = 19
1.7 서지 정보 = 22
1부 기반구조
2. 웹 크롤링
2.1 HTML과 HTTP 기초 = 26
2.2 크롤링 기초 = 29
2.3 대규모 크롤러 기술 = 32
2.3.1. DNS 캐싱, 프리페칭, 변환 = 34
2.3.2. 다중 병행페치 = 36
2.3.3. 링크 추출과 정규화 = 39
2.3.4. 로봇 배제 = 41
2.3.5. 기 방문 URL 제거 = 41
2.3.6. 스파이더 트랩 = 44
2.3.7. 중복 페이지에서 링크의 반복 확장 회피 = 46
2.3.8. 부하감시자와 관리자 = 47
2.3.9. 서버당 작업-큐 = 48
2.3.10. 텍스트 저장소 = 49
2.3.11. 크롤된 페이지의 최신화 = 52
2.4 크롤러 구성 = 56
2.4.1. 핵심 구성요소 설계 = 56
2.4.2. 사례연구 : w3c-libwww 이용 = 64
2.5 서지 정보 = 67
3. 웹 검색과 정보검색
3.1 부울 질의와 역색인 = 72
3.1.1. 불용어와 스태밍 = 76
3.1.2. 배치 색인과 업데이트 = 78
3.1.3. 색인 압축기법 = 81
3.2 연관랭킹 = 84
3.2.1. 재현율과 정확율 = 85
3.2.2. 벡터-공간 모델 = 89
3.2.3. 연관피드백과 Rocchio 방법 = 91
3.2.4. 확률 연관피드백 모델 = 93
3.2.5. 고급 논제 = 97
3.3 유사도 검색 = 107
3.3.1. "유사-발견" 질의처리 = 108
3.3.2. 싱걸링을 통한 근사중복 제거 = 114
3.3.3. 웹의 국부적 유사 서브그래프 탐지 = 116
3.4 서지 정보 = 120
2부 학습
4. 유사도와 클러스터링
4.1 형식화와 접근법 = 130
4.1.1. 분할 접근법 = 131
4.1.2. 기하학적 임베딩 접근법 = 132
4.1.3. 생성모델과 확률 접근법 = 134
4.2 상향식과 하향식 분할 패러다임 = 135
4.2.1. 응집 클러스터링 = 135
4.2.2. k-평균 알고리즘 = 139
4.3 임베딩 경유 클러스터링과 시각화 = 143
4.3.1. 자기-구성 맵(SOM) = 144
4.3.2. 다차원 스케일링(MDS)과 고속맵 = 147
4.3.3. 투영과 하위공간 = 151
4.3.4. 잠재의미색인(LSI) = 154
4.4 클러스터링으로의 확률 접근법 = 159
4.4.1. 문서의 생성분포 = 162
4.4.2. 혼합모델과 기대치 최대화(EM) = 166
4.4.3. 다중 동기 혼합모델(MCMM) = 173
4.4.4. 양상모델과 확률 LSI = 175
4.4.5. 모델과 특징 선정 = 179
4.5 협동 필터링 = 183
4.5.1. 확률모델 = 184
4.5.2. 컨텐츠 - 기반과 협동특징의 결합 = 186
4.6 서지 정보 = 194
5. 지도학습
5.1 지도학습 시나리오 = 199
5.2 분류전략 개요 = 202
5.3 텍스트 분류기 평가 = 204
5.3.1. 벤치마크 = 205
5.3.2. 정확성 측정 = 207
5.4 최인접 네이버 학습기 = 211
5.4.1. 장점과 단점 = 213
5.4.2. TFIDF가 적합한가? = 214
5.5 특징 선정 = 215
5.5.1. 그리디 포함 알고리즘 = 218
5.5.2. 절단 알고리즘 = 229
5.5.3. 비교와 토의 = 231
5.6 베이지안 학습기 = 233
5.6.1. 나이브 베이즈 학습기 = 236
5.6.2. 소-차수 베이지안 네트워크 = 243
5.7 토픽에서의 이용 계층 = 247
5.7.1. 특징 선정 = 247
5.7.2. 개선 매개변수 평가 = 248
5.7.3. 훈련 및 탐색전략 = 250
5.8 최대 엔트로피 학습기 = 255
5.9 판별 분류 = 259
5.9.1. 선형 최소 - 자승 회귀 = 260
5.9.2. 지지벡터 머신 = 262
5.10 하이퍼텍스트 분류 = 268
5.10.1. 지도학습을 위한 하이퍼텍스트 표현 = 269
5.10.2. 규칙 귀납법 = 272
5.11 서지 정보 = 275
6. 준지도학습
6.1 기대치 최대화 = 283
6.1.1. 실험 결과 = 285
6.1.2. 레이블이 없는 문서에서 확신 감소 = 288
6.1.3. 다수의 혼합 구성요소를 이용한 레이블 모델링 = 290
6.2 하이퍼텍스트 그래프의 레이블링 = 291
6.2.1. 인접페이지로부터 특징 흡수 = 292
6.2.2. 완화 레이블링 알고리즘 = 297
6.2.3. 매트릭 그래프 - 레이블링 문제 = 305
6.3 공동-훈련 = 308
6.4 서지 정보 = 312
3부 어플리케이션
7. 사회 네트워크 분석
7.1 사회과학 및 서지학 = 320
7.1.1. 권위 = 321
7.1.2. 구심성 = 322
7.1.3. 공동-인용 = 323
7.2 PageRank와 HITS = 326
7.2.1. PageRank = 327
7.2.2. HITS = 332
7.2.3. 확률 HITS와 기타 변형 = 338
7.3 거친-입자 그래프모델의 결점 = 343
7.3.1. 웹 저작자의 인공물 = 344
7.3.2. 토픽 오염과 편차 = 349
7.4 개선모델과 기법 = 352
7.4.1. 2-파티 네포티즘 회피 = 353
7.4.2. 분리자 제거 = 354
7.4.3. 앵커 텍스트 이용 = 355
7.4.4. 문서 마크업 구조 이용 = 358
7.5 토픽 추출 평가 = 368
7.5.1. HITS와 관련 알고리즘 = 369
7.5.2. 다른 하이퍼텍스트 특징의 이용 효과 = 373
7.6 웹 측정과 모델링 = 379
7.6.1. 자승-법칙 차수 분포 = 379
7.6.2. "Bow Tie" 구조와 이분 핵심 = 382
7.6.3. 임의 웹 페이지 표본화 = 385
7.7 서지 정보 = 395
8. 자원발견
8.1 선호하는 중요 페이지 수집 = 400
8.1.1. 그래프에서 유도된 검색으로서 크롤링 = 401
8.1.2. 키워드-기반 그래프 검색 = 404
8.2 링크 토폴로지 이용 유사도 검색 = 411
8.3 토픽 지역성과 집중 크롤링 = 416
8.3.1. 집중 크롤링 = 419
8.3.2. 허브 식별과 이용 = 430
8.3.3. 문맥 그래프 학습 = 432
8.3.4. 강화학습 = 434
8.4 공동체 발견 = 439
8.4.1. 공동체로서 이분 핵심 = 440
8.4.2. 공동체의 네트워크 흐름/삭제 - 기반 개념 = 442
8.5 서지 정보 = 446
9. 웹 마이닝의 미래
9.1 정보 추출 = 451
9.2 자연어 처리 = 459
9.2.1. 어휘 네트워크와 온톨로지 = 459
9.2.2. 품사와 의미 태깅 = 462
9.2.3. 문맥해석과 지식표현 = 465
9.3 질의 응답 = 469
9.4 프로파일, 개인화, 협력 = 474
참고문헌 = 477
찾아보기 = 503