목차
1장 개론 = 23
1.1 데이터 마이닝의 필요성과 중요성은 무엇인가? = 23
1.2 과연, 데이터 마이닝이란 무엇인가? = 27
1.3 데이터 마이닝 - 어떤 종류의 데이터에 대한 마이닝인가? = 32
1.3.1 관계 데이터베이스 = 33
1.3.2 데이터 웨어하우스 = 35
1.3.3 트랜잭션 데이터베이스 = 38
1.3.4 진보된 데이터베이스 시스템과 고급 데이터베이스 응용 = 39
1.4 데이터 마이닝의 기능 - 어떤 종류의 패턴을 마이닝할 수 있는가? = 45
1.4.1 개념/클래스 기술 : 특성화와 차별화 = 46
1.4.2 연관성 분석 = 48
1.4.3 분류(Classification)와 예측 = 49
1.4.4 군집 분석 = 50
1.4.5 이상치 분석 = 51
1.4.6 전개 분석 = 52
1.5 모든 패턴이 다 흥미로운가? = 52
1.6 데이터 마이닝 시스템의 분류 = 55
1.7 데이터 마이닝의 주요 논제 = 57
1.8 요약 = 61
2장 데이터 마이닝을 위한 데이터 웨어하우스와 OLAP 기술 = 69
2.1 데이터 웨어하우스란 무엇인가? = 69
2.1.1 운영 데이터베이스 시스템과 데이터 웨어하우스의 차이점 = 72
2.1.2 왜 별도의 데이터 웨어하우스인가? = 74
2.2 다차원 데이터 모델 = 76
2.2.1 테이블과 스프레드쉬트에서 데이터 큐브까지 = 76
2.2.2 스타, 눈송이, 사실 성군 : 다차원 데이터베이스를 위한 스키마 = 79
2.2.3 스타, 눈송이, 사실 성군 스키마 정의 예 = 83
2.2.4 척도 : 분류와 계산 = 86
2.2.5 개념 계층의 소개 = 89
2.2.6 다차원 데이터 모델에서의 OLAP 연산 = 91
2.2.7 다차원 데이터베이스 질의를 위한 스타넷 질의 모델 = 95
2.3 데이터 웨어하우스의 구조 = 96
2.3.1 데이터 웨어하우스의 설계와 구축 단계 = 96
2.3.2 3계층 데이터 웨어하우스 구조 = 101
2.3.3 OLAP 서버의 유형 : ROLAP, MOLAP, HOLAP = 103
2.4 데이터 웨어하우스 구현 = 106
2.4.1 데이터 큐브의 효율적인 계산 = 106
2.4.2 OLAP 데이터의 인덱싱 = 115
2.4.3 OLAP 질의의 효율적인 처리 = 119
2.4.4 메타데이터 저장소 = 121
2.4.5 데이터 웨어하우스 백엔드 도구와 유틸리티 = 122
2.5 데이터 큐브 기술에서의 추가적인 연구들 = 123
2.5.1 발견 중심의 데이터 큐브 탐색 = 123
2.5.2 여러 세분화 단위에서의 복합 집계 : 멀티피쳐 큐브 = 128
2.5.3 다른 진전들 = 132
2.6 데이터 웨어하우징으로부터 데이터 마이닝으로 = 132
2.6.1 데이터 웨어하우스의 사용 = 133
2.6.2 OLAP으로부터 OLAM(ON-Line Analytical Mining)으로 = 135
2.7 요약 = 138
3장 데이터 전처리 = 147
3.1 왜 데이터를 전처리 하는가? = 148
3.2 데이터 정제 = 151
3.2.1 결측치 = 152
3.2.2 잡음섞인 데이터 = 153
3.2.3 불일치 데이터 = 155
3.3 데이터 통합과 변환 = 156
3.3.1 데이터 통합 = 156
3.3.2 데이터 변환 = 158
3.4 데이터 축소 = 161
3.4.1 데이터 큐브 집계 = 162
3.4.2 차원 축소 = 163
3.4.3 데이터 압축 = 166
3.4.4 수량 축소 = 170
3.5 이산화와 개념 계층 생성 = 178
3.5.1 수치형 데이터를 위한 이산화와 개념 계층 생성 = 179
3.5.2 범주형 데이터를 위한 개념 계층 생성 = 185
3.6 요약 = 188
4장 데이터 마이닝 요소, 언어, 시스템 구조 = 193
4.1 데이터 마이닝 요소 : 데이터 마이닝 작업 정의 = 194
4.1.1 작업관련 데이터 = 196
4.1.2 마이닝 대상 지식의 종류 = 199
4.1.3 배경지식 : 개념 계층구조 = 200
4.1.4 흥미도 = 204
4.1.5 발견된 패턴의 프리젠테이션과 가시화 = 207
4.2 데이터 마이닝 질의어 = 209
4.2.1 작업관련 데이터의 명세를 위한 문법 = 210
4.2.2 마이닝 대상 지식의 종류를 지정하기 위한 문법 = 213
4.2.3 개념계층 명세에 대한 문법 = 215
4.2.4 흥미도 명세 구문 = 217
4.2.5 패턴 출력과 가시화 명세 구문 = 217
4.2.6 DMQL 질의 예제 총정리 = 218
4.2.7 다른 데이터 마이닝 언어와 데이터 마이닝 요소의 표준화 = 220
4.3 데이터 마이닝 언어 기반 그래픽 사용자 인터페이스 설계 = 222
4.4 데이터 마이닝 시스템의 구조 = 223
4.5 요약 = 226
5장 개념 서술 : 특성화와 비교 = 233
5.1 개념 서술이란 무엇인가? = 233
5.2 데이터 일반화와 요약에 기반한 특성화 = 235
5.2.1 속성 중심 귀납법(Attribute-Oriented Induction, AOI) = 236
5.2.2 속성 중심 귀납법의 효율적 구현 = 243
5.2.3 생성된 일반화 결과의 출력 = 246
5.3 분석 특성화 : 속성 관련 분석 = 250
5.3.1 속성 관련 분석을 하는 이유 = 251
5.3.2 속성 관련 분석 방법 = 252
5.3.3 분석 특성화 예 = 255
5.4 클래스 비교 마이닝 : 상이한 클래스들을 차별화하기 = 257
5.4.1 클래스 비교 기법과 구현 = 258
5.4.2 클래스 비교 서술의 표현 = 261
5.4.3 클래스 서술 : 특성화와 비교의 출력 = 263
5.5 대규모 데이터베이스에서 서술을 위한 통계 척도 마이닝 = 266
5.5.1 중심경향 측정 = 266
5.5.2 데이터의 분산 척도 계산 = 268
5.5.3 기본적인 통계적 클래스 서술의 그래픽 표현 = 271
5.6 논의사항 = 276
5.6.1 개념 서술 : 기존 기계학습과의 비교 = 276
5.6.2 개념 서술의 점진적 및 병렬 마이닝 = 279
5.7 요약 = 280
6장 대용량의 데이터베이스에서의 연관 규칙 마이닝 = 285
6.1 연관규칙 마이닝 = 286
6.1.1 장바구니 분석 : 연관규칙 마이닝을 위한 동기 예제 = 286
6.1.2 기본 개념 = 288
6.1.3 연관규칙 마이닝 : 개요 = 289
6.2 트랜잭션 데이터베이스에서의 단일차원 이진 연관규칙 마이닝 = 291
6.2.1 Apriori 알고리즘 : 후보 생성을 통한 빈발 항목집합 찾기 = 291
6.2.2 빈발 항목집합으로부터 연관 규칙 생성 = 297
6.2.3 Apriori의 효율을 증대하는 기법 = 298
6.2.4 후보생성이 없는 빈발 항목집합 마이닝 = 301
6.2.5 빙산 질의 = 304
6.3 트랜잭션 데이터베이스로부터 다중 계층 연관규칙 마이닝 = 307
6.3.1 다중 계층 연관규칙 = 307
6.3.2 다중 계층 규칙 마이닝 접근 기법 = 309
6.3.3 중복 다중 계층 연관 규칙의 검사 = 314
6.4 관계 데이터베이스와 데이터 웨어하우스에서 다차원 연관규칙 마이닝 = 315
6.4.1 다차원 연관 규칙 = 315
6.4.2 정량적 속성의 정적 이산화를 통한 다차원 연관 규칙 마이닝 = 317
6.4.3 정량적 연관규칙 마이닝 = 319
6.4.4 거리 기반 연관규칙 마이닝 = 322
6.5 연관규칙 마이닝과 상관 분석 = 324
6.5.1 강한 연관규칙은 필수적으로 유용한 것은 아니다 : 예제 = 324
6.5.2 연관 분석에서 상관분석으로 = 325
6.6 제약 기반 연관성 마이닝 = 328
6.6.1 메타규칙-기반 연관규칙 마이닝 = 329
6.6.2 추가 규칙 제약에 의한 마이닝 = 331
6.7 요약 = 336
7장 분류와 예측 = 347
7.1 분류란? 예측이란? = 348
7.2 분류와 예측분야 연구과제들 = 350
7.2.1 분류와 예측을 위한 데이터 준비 = 351
7.2.2 분류방법의 비교 = 352
7.3 의사결정트리 귀납에 의한 분류 = 352
7.3.1 의사결정트리 귀납 = 354
7.3.2 트리 가지치기 = 359
7.3.3 의사결정트리에서 분류 규칙 추출 = 360
7.3.4 기본 의사결정트리 귀납의 확장 = 361
7.3.5 확장적용성과 의사결정트리 귀납 = 363
7.3.6 데이터 웨어하우징과 의사결정트리 귀납의 통합 = 365
7.4 베이지안 분류 = 367
7.4.1 베이지안 이론 = 367
7.4.2 단순 베이지안 분류 = 368
7.4.3 베이지안 신뢰 네트워크 = 372
7.4.4 베이지안 신뢰 네트워크 학습 = 374
7.5 역전파에 의한 분류 = 375
7.5.1 다계층 전방향 신경망 = 376
7.5.2 네트워크 위상 설계 = 377
7.5.3 역전파 = 378
7.5.4 역전파와 해석 = 384
7.6 연관규칙 마이닝의 개념에 기반한 분류 = 385
7.7 기타 분류기법 = 388
7.7.1 k-인접 이웃 분류기 = 388
7.7.2 사례 기반 추론 = 389
7.7.3 유전자 알고리즘 = 390
7.7.4 러프 집합 기법 = 391
7.7.5 퍼지 집합(Fuzzy Set) 접근법 = 392
7.8 예측(prediction) = 394
7.8.1 선형 회귀와 다중 회귀 = 394
7.8.2 비선형 회귀 = 396
7.8.3 기타 회귀모형 = 397
7.9 분류기 정확도 = 398
7.9.1 분류기 정확도 추정 = 398
7.9.2 분류기 정확도의 향상 = 400
7.9.3 정확도 외의 분류기 평가 방식 = 401
7.10 요약 = 402
8장 군집 분석 = 413
8.1 군집분석이란? = 413
8.2 군집분석의 데이터 유형 = 416
8.2.1 구간척도 변수 = 418
8.2.2 이항 변수 = 420
8.2.3 명목, 서열, 비율 척도 변수 = 422
8.2.4 혼합형 변수 = 425
8.3 주요 군집화 방법의 분류 = 426
8.4 V분할 기법 = 428
8.4.1 고전적 분할기법 : k-mean과 k-medoids = 429
8.4.2 큰 데이터베이스에서의 분할기법 : k-medoids부터 CLARANS 까지 = 434
8.5 계층 기법 = 435
8.5.1 집괴적과 분할적 계층 군집화 = 436
8.5.2 BIRCH : 계층을 사용한 균형된 반복적 감소와 군집화 = 438
8.5.3 CURE : 대표값을 이용한 군집화 = 440
8.5.4 Chameleon : 동적인 모델을 이용한 계층 군집화 알고리즘 = 442
8.6 밀도 기반 기법 = 444
8.6.1 DBSCAN : 밀도 기반 군집화 기법 = 445
8.6.2 OPTICS : 군집 구조 식별을 위한 순서화 = 447
8.6.3 DENCLUE : 밀도분포 함수에 기초한 군집화 = 449
8.7 격자기반 기법 = 452
8.7.1 STING : 통계정보 격자 = 452
8.7.2 WaveCluster : 웨이블릿 변환을 이용한 군집화 = 454
8.7.3 CLIQUE : 고차원 공간 군집화 = 456
8.8 모델기반 군집화 기법 = 458
8.8.1 통계적 접근 = 459
8.8.2 신경망 접근 = 462
8.9 이상치 분석 = 464
8.9.1 통계기반 이상치 탐지 = 465
8.9.2 거리기반 이상치 탐지 = 467
8.9.3 편차 기반 이상치 탐지 = 469
8.10 요약 = 472
9장 복합 데이터타입 마이닝 = 479
9.1 다차원 분석과 복합 데이터 객체의 서술적 마이닝 = 480
9.1.1 구조화된 데이터의 일반화 = 480
9.1.2 공간과 멀티미디어 데이터 일반화에 대한 집계와 근사 = 482
9.1.3 객체 식별자의 일반화와 클래스/하위클래스 체계 = 483
9.1.4 클래스 구성 체계의 일반화 = 484
9.1.5 객체 큐브 구성과 마이닝 = 485
9.1.6 분할 정복에 의한 일정 데이터베이스의 일반화 기반 마이닝 = 485
9.2 공간 데이터베이스 마이닝 = 490
9.2.1 공간 데이터 큐브 구성과 공간 OLAP = 491
9.2.2 공간 연관 분석 = 495
9.2.3 공간 군집화 방법들 = 497
9.2.4 공간 분류와 공간 추세 분석 = 497
9.2.5 래스터 데이터베이스 마이닝 = 498
9.3 멀티미디어 데이터베이스 마이닝 = 498
9.3.1 멀티미디어 데이터에서의 유사성 탐색 = 499
9.3.2 멀티미디어 데이터의 다차원 분석 = 501
9.3.3 분류와 멀티미디어 데이터의 예측 분석 = 503
9.3.4 멀티미디어 데이터에서 연관 마이닝 = 504
9.4 시계열과 순차 데이터의 마이닝 = 505
9.4.1 추세 분석 = 506
9.4.2 시계열 분석에서 유사성 탐색 = 509
9.4.3 순차 패턴 마이닝 = 513
9.4.4 주기성 분석 = 515
9.5 텍스트 데이터베이스 마이닝 = 517
9.5.1 텍스트 데이터 분석과 정보 검색 = 518
9.6 웹 마이닝 = 525
9.6.1 믿을만한 웹 페이지를 식별하기 위한 웹 링크 구조 마이닝 = 528
9.6.2 웹 문서의 자동 분류 = 531
9.6.3 다층 웹 정보 베이스 구축 = 532
9.6.4 웹 사용 마이닝 = 533
9.7 요약 = 535
10장 데이터 마이닝 응용과 방향 = 545
10.1 데이터 마이닝 응용 = 545
10.1.1 생물의학과 DNA 자료분석을 위한 데이터 마이닝 = 546
10.1.2 금융 데이터 분석을 위한 데이터 마이닝 = 548
10.1.3 소매업을 위한 데이터 마이닝 = 549
10.1.4 통신 사업자를 위한 데이터 마이닝 = 551
10.2 데이터 마이닝 시스템 제품과 연구 모형 = 553
10.2.1 데이터 마이닝 시스템을 선택하는 법 = 553
10.2.2 상용 데이터 마이닝 시스템의 예 = 557
10.3 데이터 마이닝에 대한 부가적인 주제 = 558
10.3.1 시각과 음성 데이터 마이닝 = 558
10.3.2 과학적이고 통계적인 데이터 마이닝 = 563
10.3.3 데이터 마이닝의 이론적인 기초 = 565
10.3.4 데이터 마이닝과 지능형 질의 응답 = 567
10.4 데이터 마이닝의 사회적 영향 = 569
10.4.1 데이터 마이닝이 과대 선전인가, 아니면 지속적 성장 분야인가? = 569
10.4.2 데이터 마이닝이 단순히 관리자의 업무인가 아니면 모두의 업무인가? = 572
10.4.3 데이터 마이닝이 프라이버시과 데이터 안전에 위협인가? = 573
10.5 데이터 마이닝 경향 = 576
10.6 요약 = 579
부록 = 587
A. Microsoft OLE DB for Data Mining의 소개 = 587
A.1 DMM 객체 생성 = 589
A.2 모형에 훈련 데이터 삽입과 모형 훈련 = 590
A.3 모델의 사용 = 591
B. DBMiner 소개 = 594
B.1 시스템 구조 = 595
B.2 입력과 출력 = 596
B.3 시스템에 의해 제공되는 데이터 마이닝 작업들 = 597
B.4 작업 지원과 방법 선택 = 600
B.5 KDD 과정 지원 = 600
B.6 주 응용 = 600
B.7 현재 상태 = 601
참고문헌 = 603
찾아보기 = 631