内容简介
本书注重数据挖掘理论,将理论与实践相结合、知识理论与具体实现方法相结合,由浅入深地介绍了数据分析与挖掘的相关知识。全书分为3部分。第1部分介绍了数据挖掘理论(第1~3章),第2部分介绍了Excel 2010数据分析与挖掘、SQL Server 2012数据挖掘、SPSS数据分析与挖掘的实践过程(第4~9章),第3部分介绍了SQL Server和SPSS数据挖掘的实验内容(第10章)。
本书为教师提供了配套的教学资源,可以作为计算机、智能科学类专业本科生的数据挖掘课程教材,也可以作为专业技术人员的自学参考书及数据挖掘爱好者的自学用书。
前 言
数据挖掘涉及数据库技术、人工智能、统计学、机器学习、知识发现等多个学科的领域。随着信息技术的高速发展、数据量的飞速增长,数据挖掘已经在各行各业有了较为广泛的应用。
Microsoft SQL Server 2012是集成了数据挖掘技术的第5版的SQL Server。SQL Server数据挖掘是业界部署最广泛的数据挖掘服务器,由于其可伸缩性大,容易获得,使用也较为简便,政府机构、企事业单位、学术人员和科学家也开始采用或转而使用SQL Server进行数据挖掘。IBM SPSS Statistics是全世界最早的统计分析软件,其主要功能包括统计学分析运算、数据挖掘、预测分析等,由于其具有数据分析深入、使用方便、功能齐全等诸多优点,被广泛应用于自然科学、技术科学、社会科学的各个领域。
Microsoft SQL Server Analysis Services(SSAS)是本书的核心内容,Excel的数据分析与挖掘,也是基于SSAS的服务引擎在进行。使用本书时,可以先学习数据挖掘基本理论;接下来学习Excel 2010数据分析与挖掘、SQL Server 2012数据挖掘、SPSS Statistics数据分析与挖掘;然后再通过完成教程设计的实验内容,真正地理解数据挖掘理论,掌握数据挖掘的实践技能。
本书结合作者多年从事数据挖掘教学、开发数据挖掘项目的经验,从实际出发,以实用的例子,系统地介绍了数据挖掘。全书分为三个部分,共10章。
第1部分由第1~3章组成,包括商业智能的概念和发展、数据挖掘和数据仓库的基本概念以及它们之间的关系;数据仓库的基本概念和设计步骤,并介绍了联机分析技术的分类和特点,以及回归分析、关联规则、聚类分析、决策树分析等数据挖掘常用分析方法的概念和算法。
第2部分由第4~9章组成,包括Excel 2010数据分析和预测的功能、Excel 2010的数据挖掘功能;SQL Server 2012的Analysis Services功能、设置数据源、设置数据源视图、设置挖掘结构、处理挖掘模型、查看挖掘结果等;Microsoft SQL Server Analysis Services中提供的最常用的6个数据挖掘算法原理与参数;SPSS Statistics的界面和基础操作;SPSS Statistics在数据挖掘中常用的基础统计分析方法和高级统计分析方法。
第3部分由第10章组成,包括SQL Server 2012的数据挖掘实验、SPSS Statistics的数据挖掘实验。
在内容的选择、深度的把握上,本书充分考虑到初学者的特点,在内容安排上力求循序渐进,不仅可以作为大专院校教学用书,也可以作为数据挖掘的培训教材和数据挖掘爱好者的自学用书。
本书由吴思远任主编,邹洋、黄梅根、贾玲任副主编。具体编写分工如下:邹洋编写第1~3章,吴思远编写第4~6章,黄梅根编写第7章,贾玲编写第8~9章,吴思远和贾玲共同编写第10章。吴思远负责全书架构的组织设计,负责统稿。本书的编写得到重庆邮电大学教务处、重庆邮电大学计算机科学与技术学院以及重庆市教育评估院和中冶赛迪重庆信息技术有限公司的大力支持,在此感谢以上单位对本书所做出的贡献。
本书为教师提供了配套的教学资源,可从清华大学出版社网站http://www.tup.com.cn下载。
由于作者水平有限,书中难免有疏漏和不足之处,希望广大读者给予谅解和指正。
编 者
目 录
第1章 绪论 11.1 商业智能 11.1.1 商业智能概述 11.1.2 商业智能的发展 41.2 数据挖掘 61.2.1 数据挖掘的定义 61.2.2 数据挖掘的重要性 71.2.3 数据挖掘的功能 81.2.4 数据挖掘的方法和经典算法 91.3 数据仓库 121.3.1 数据仓库的产生与发展 121.3.2 数据仓库的定义 131.3.3 数据仓库与数据挖掘的关系 13第2章 数据仓库与联机分析 152.1 数据仓库 152.1.1 数据仓库的基本概念 152.1.2 数据仓库的体系结构 202.1.3 数据仓库的数据模型 212.2 数据仓库的设计步骤 232.2.1 概念模型设计 242.2.2 逻辑模型设计 262.2.3 物理模型设计 282.2.4 数据仓库的生成 312.2.5 数据仓库的运行与维护 332.3 联机分析技术 342.3.1 OLAP概述 342.3.2 OLAP多维分析 372.3.3 MOLAP与ROLAP 38第3章 数据挖掘运用的理论和技术 413.1 回归分析 413.1.1 简单线性回归分析 423.1.2 多元回归分析 443.1.3 岭回归分析 463.1.4 logistic回归分析 463.2 关联规则 473.2.1 关联规则概述 473.2.2 Apriori算法 503.2.3 FP-Growth算法 533.3 聚类分析 553.3.1 聚类概述 553.3.2 聚类中的相异度计算 573.3.3 基于划分的聚类 603.3.4 基于层次的聚类 613.4 决策树分析 633.4.1 信息论的基本原理 633.4.2 ID3算法 653.4.3 C4.5算法 673.5 其他分析方法 68第4章 用Excel 2010进行数据分析 714.1 安装前的准备 714.1.1 下载表分析工具 714.1.2 系统要求 714.2 安装表分析工具 724.3 配置表分析工具 754.4 使用表分析工具的要求 794.5 分析关键影响因素 824.5.1 影响因素主报表 844.5.2 影响因素对比报表 864.6 检测类别 864.7 从示例填充 904.8 预测 934.9 突出显示异常值 944.10 应用场景分析 984.10.1 目标查找 984.10.2 假设 1014.11 预测计算器及可打印计算器 1044.11.1 预测报表 1044.11.2 预测计算器 1064.11.3 可打印计算器 1074.12 购物篮分析 1084.12.1 购物篮捆绑销售商品 1084.12.2 购物篮推荐 1094.12.3 高级参数设置 110第5章 用Excel 2010进行数据挖掘 1115.1 数据挖掘简介 1115.1.1 业务理解 1115.1.2 数据理解 1125.1.3 数据准备 1125.1.4 建立模型 1125.1.5 评价 1125.1.6 实施 1125.1.7 Excel的数据挖掘过程 1135.2 获取外部数据 1135.3 数据准备 1145.3.1 浏览数据 1145.3.2 清除数据 1185.3.3 示例数据 1245.4 数据建模 1275.4.1 分类 1275.4.2 估计 1325.4.3 聚类分析 1365.4.4 关联 1415.4.5 预测 1455.4.6 高级 1485.5 准确性和验证 1535.5.1 准确性图表 1535.5.2 分类矩阵 1565.5.3 利润图 1585.5.4 交叉验证 1615.6 模型用法 1645.6.1 浏览 1645.6.2 文档模型 1665.6.3 查询 1685.7 管理和连接 1715.7.1 管理模型 1725.7.2 连接与跟踪 173第6章 SQL Server 2012数据挖掘 1746.1 SSDT(SQL Server Data Tools)简介 1746.1.1 下载SSDT 1746.1.2 系统要求 1746.2 安装SSDT-BI 1756.3 安装示例数据库 1806.4 SSDT-BI用户界面 1826.5 创建挖掘项目 1836.6 设置数据源 1856.7 设置数据源视图 1886.7.1 新建数据源视图 1886.7.2 使用数据源视图 1906.8 设置挖掘结构 1936.9 处理挖掘模型 1986.10 查看挖掘模型 1996.11 挖掘准确性图表 2016.11.1 输入选择 2016.11.2 提升图 2026.11.3 利润图 2036.11.4 分类矩阵 2036.11.5 交叉验证 2046.12 挖掘模型预测 205第7章 Microsoft数据挖掘算法 2087.1 背景知识 2087.1.1 功能选择 2087.1.2 功能选择的方法 2097.1.3 兴趣性分数 2097.1.4 Shannon平均信息量 2097.1.5 贝叶斯K2算法 2097.1.6 贝叶斯BDE算法 2107.2 Microsoft决策树算法 2107.2.1 使用决策树算法 2107.2.2 决策树算法的原理 2107.2.3 决策树算法参数 2127.3 Microsoft聚类算法 2147.3.1 使用聚类算法 2147.3.2 聚类算法的原理 2147.3.3 聚类算法参数 2167.4 Microsoft关联规则算法 2187.4.1 使用关联规则算法 2187.4.2 关联规则算法的原理 2187.4.3 关联规则算法参数 2207.5 Microsoft时序算法 2217.5.1 使用时序算法 2217.5.2 时序算法的原理 2227.5.3 时序算法参数 2247.6 Microsoft朴素贝叶斯算法 2267.6.1 使用朴素贝叶斯算法 2267.6.2 贝叶斯算法的原理 2277.6.3 贝叶斯算法参数 2287.7 Microsoft神经网络算法 2297.7.1 使用神经网络算法 2297.7.2 神经网络算法的原理 2297.7.3 神经网络算法参数 232第8章 SPSS数据挖掘基础 2348.1 SPSS发展简史 2348.2 SPSS操作入门 2358.2.1 SPSS的启动 2358.2.2 SPSS的退出 2368.3 SPSS的界面 2368.3.1 SPSS的窗口 2368.3.2 SPSS的菜单 2378.4 建立SPSS文件 2378.4.1 SPSS文件类型 2378.4.2 数据录入 2388.4.3 文件的保存与导出 2388.5 SPSS数据的变量属性定义 2398.5.1 变量名称 2398.5.2 变量类型 2398.5.3 变量宽度和小数 2408.5.4 标签和值 2408.5.5 变量缺失值 2418.5.6 变量显示列、对齐方式 2418.5.7 变量测量方式 2428.5.8 变量角色 2428.6 SPSS数据管理 2428.6.1 插入或删除个案 2428.6.2 插入或删除变量 2438.6.3 数据排序 2438.6.4 数据的行列转置 2458.6.5 选取个案 2458.6.6 数据合并 2468.6.7 拆分数据文件 2488.7 SPSS数据转换 2498.7.1 计算产生变量 2498.7.2 对个案内的值计数 2508.7.3 重新编码 251第9章 SPSS数据挖掘常用的统计分析方法 2549.1 基本描述统计 2549.1.1 频数分析 2549.1.2 描述分析 2579.1.3 探索分析 2599.1.4 交叉表分析 2639.2 T检验 2689.2.1 单样本T检验 2689.2.2 独立样本T检验 2699.2.3 配对样本T检验 2719.3 方差分析 2729.3.1 单因素方差分析 2739.3.2 多因素方差分析 2769.3.3 重复测量方差分析 2829.4 多元回归分析 2869.4.1 多元线性回归 2869.4.2 Logistic回归 2929.5 聚类分析 2979.5.1 两步聚类分析 2989.5.2 K-平均值聚类分析 3019.5.3 系统聚类分析 3049.6 相关分析 3099.6.1 线性相关分析 3099.6.2 偏相关分析 3119.7 因子分析 313第10章 数据挖掘实验 31910.1 SQL Server 2012数据挖掘实验 31910.1.1 实践关联规则挖掘方法 31910.1.2 实践聚类挖掘方法 33110.1.3 实践贝叶斯分类方法 33810.2 SPSS数据挖掘实验 34110.2.1 SPSS基本数据管理与数据转换操作 34110.2.2 SPSS均值比较与回归分析操作 35110.2.3 SPSS聚类、相关、因子分析操作 356参考文献 361