找回密码
 立即注册
查看: 2583|回复: 0

Data Mining Concepts,Models and Techniques

[复制链接]
发表于 2013-2-15 16:37:42 | 显示全部楼层 |阅读模式
Data Mining Concepts,Models and Techniques
目录
1 Introduction to Data Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1 What Is and What Is Not Data Mining?. . . . . . . . . . . . . . . . . . 1
1.2 Why Data Mining? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 How to Mine the Data? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.4 Problems Solvable with Data Mining . . . . . . . . . . . . . . . . . . . . . 14
1.4.1 Classification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.4.2 Cluster Analysis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.4.3 Association Rule Discovery . . . . . . . . . . . . . . . . . . . . . . . 23
1.4.4 Sequential Pattern Discovery . . . . . . . . . . . . . . . . . . . . . 25
1.4.5 Regression. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.4.6 Deviation/Anomaly Detection . . . . . . . . . . . . . . . . . . . . 26
1.5 About Modeling and Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.6 Data Mining Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
1.7 Data Mining Terminology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
1.8 Privacy Issues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2 The “Data-Mine”. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
2.1 What Are Data? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
2.2 Types of Datasets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
2.3 Data Quality . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
2.4 Types of Attributes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3 Exploratory Data Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.1 What Is Exploratory Data Analysis? . . . . . . . . . . . . . . . . . . . . . 57
3.2 Descriptive Statistics. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.2.1 Descriptive Statistics Parameters . . . . . . . . . . . . . . . . . . 60
3.2.2 Descriptive Statistics of a Couple of Series . . . . . . . . . . 68
3.2.3 Graphical Representation of a Dataset . . . . . . . . . . . . . 81
3.3 Analysis of Correlation Matrix . . . . . . . . . . . . . . . . . . . . . . . . . . 85
X Contents
3.4 Data Visualization. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
3.5 Examination of Distributions . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
3.6 Advanced Linear and Additive Models . . . . . . . . . . . . . . . . . . . 105
3.6.1 Multiple Linear Regression . . . . . . . . . . . . . . . . . . . . . . . 105
3.6.2 Logistic Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
3.6.3 Cox Regression Model . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
3.6.4 Additive Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
3.6.5 Time Series: Forecasting. . . . . . . . . . . . . . . . . . . . . . . . . . 124
3.7 Multivariate Exploratory Techniques . . . . . . . . . . . . . . . . . . . . . 130
3.7.1 Factor Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
3.7.2 Principal Components Analysis . . . . . . . . . . . . . . . . . . . 133
3.7.3 Canonical Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
3.7.4 Discriminant Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
3.8 OLAP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
3.9 Anomaly Detection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
4 Classification and Decision Trees . . . . . . . . . . . . . . . . . . . . . . . . 159
4.1 What Is a Decision Tree? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
4.2 Decision Tree Induction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
4.2.1 GINI Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
4.2.2 Entropy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
4.2.3 Misclassification Measure . . . . . . . . . . . . . . . . . . . . . . . . . 171
4.3 Practical Issues Regarding Decision Trees. . . . . . . . . . . . . . . . . 179
4.3.1 Predictive Accuracy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
4.3.2 STOP Condition for Split . . . . . . . . . . . . . . . . . . . . . . . . 179
4.3.3 Pruning Decision Trees . . . . . . . . . . . . . . . . . . . . . . . . . . . 180
4.3.4 Extracting Classification Rules from Decision
Trees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
4.4 Advantages of Decision Trees . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
5 Data Mining Techniques and Models . . . . . . . . . . . . . . . . . . . . 185
5.1 Data Mining Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
5.2 Bayesian Classifier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
5.3 Artificial Neural Networks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
5.3.1 Perceptron . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192
5.3.2 Types of Artificial Neural Networks . . . . . . . . . . . . . . . . 205
5.3.3 Probabilistic Neural Networks . . . . . . . . . . . . . . . . . . . . . 217
5.3.4 Some Neural Networks Applications . . . . . . . . . . . . . . . 224
5.3.5 Support Vector Machines . . . . . . . . . . . . . . . . . . . . . . . . . 234
5.4 Association Rule Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249
5.5 Rule-Based Classification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252
5.6 k-Nearest Neighbor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 256
5.7 Rough Sets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 260
5.8 Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271
5.8.1 Hierarchical Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . 282
Contents XI
5.8.2 Non-hierarchical/Partitional Clustering . . . . . . . . . . . . 284
5.9 Genetic Algorithms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 289
5.9.1 Components of GAs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292
5.9.2 Architecture of GAs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 310
5.9.3 Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313
6 Classification Performance Evaluation . . . . . . . . . . . . . . . . . . . 319
6.1 Costs and Classification Accuracy . . . . . . . . . . . . . . . . . . . . . . . 319
6.2 ROC (Receiver Operating Characteristic) Curve . . . . . . . . . . . 323
6.3 Statistical Methods for Comparing Classifiers . . . . . . . . . . . . . 328
References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 331
Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353

下载地址:
Data Mining Concepts,Models and Techniques.rar (6.57 MB, 下载次数: 1, 售价: 5 )

备注:
很多人都有收集一堆资料而不看的习惯。为了有效利用资源,养成下载一本看一本的习惯,特设置了积分下载,请见谅。
多参加论坛的活动、多帮助别人,会很容易凑够积分的!
祝大家使用愉快!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|R语言中文网

GMT+8, 2024-11-24 22:35 , Processed in 0.031714 second(s), 20 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表