您好,欢迎来到聚文网。 登录 免费注册
数据挖掘(第2版)

数据挖掘(第2版)

  • 字数: 480000
  • 装帧: 平装
  • 出版社: 电子工业出版社
  • 出版日期: 2023-05-01
  • 商品条码: 9787121455025
  • 版次: 2
  • 开本: 16开
  • 页数: 316
  • 出版年份: 2023
定价:¥88 销售价:登录后查看价格  ¥{{selectedSku?.salePrice}} 
库存: {{selectedSku?.stock}} 库存充足
{{item.title}}:
{{its.name}}
精选
内容简介
本书是《数据挖掘》的第2版,系统地介绍了数据挖掘的理论、方法与应用,包括数据特征分析及预处理、经典数据挖掘算法(分类、回归、聚类、关联规则和集成学习等)、大数据新常态下催生的数据分析方法(推荐系统、链接分析与网页排序、互联网信息抽取、日志挖掘与查询分析等)理论与方法。在此基础上,除第1章外,每章均有基于Python语言的实例应用。
作者简介
刘鹏:教授,清华大学博士,南京云创大数据科技股份有限公司总裁,中国大数据应用联盟人工智能专家委员会主任,中国信息协会教育分会人工智能教育专家委员会主任,教育部全国普通高校毕业生就业创业指导委员会委员,第45届世界技能大赛中国区云计算选拔赛裁判长/专家指导组组长,2019年全国大学生数据建模比赛命题人,工信部云计算研究中心专家。在云计算、大数据、人工智能领域具有多年的研究积累,是我国该领域的知名专家。主持科研项目40多项,发表论文80余篇,出版专业书籍30多种。曾于2002年获得全球数据处理比赛PennySort的世界冠军,于2003年夺得全国挑战杯比赛总冠军。提出的反垃圾邮件网格,被IEEE Cluster 2003评为杰出网格项目,为解决困扰全球的垃圾邮件问题做出根本贡献,该技术成为云安全技术的基础。曾担任全军网格技术研究中心主任,获“全军十大学习成才标兵”(排名第一)、南京市“十大杰出青年”、“中国大数据创新百人”、江苏省“333工程”中青年领军人才、清华大学“学术新秀”等称号。
目录
第1章绪论1
1.1数据挖掘的基本概念1
1.1.1数据挖掘的概念1
1.1.2大数据环境下的数据挖掘2
1.1.3数据挖掘的特性3
1.1.4数据挖掘的任务和功能3
1.1.5数据挖掘的对象4
1.1.6数据挖掘的过程5
1.2数据挖掘的起源及发展6
1.3数据挖掘的常用工具9
1.3.1商用工具9
1.3.2开源工具10
1.4数据挖掘的应用12
习题15
参考文献16
第2章数据特征分析及预处理17
2.1数据类型17
2.1.1属性与度量17
2.1.2数据集的类型18
2.2数据特征分析19
2.2.1描述数据集中趋势的度量19
2.2.2描述数据离散程度的度量21
2.2.3数据相关性分析24
2.3数据预处理28
2.3.1数据清洗28
2.3.2数据集成34
2.3.3数据规范化34
2.3.4数据规约38
2.3.5数据离散化45
2.4数据的相似性47
2.4.1数值属性的相似性度量47
2.4.2标称属性的相似性度量49
2.4.3组合异种属性的相似性度量50
2.4.4文本的相似性度量52
2.4.5离散序列的相似性度量53
习题55
参考文献56
第3章分类57
3.1分类概述58
3.1.1分类的基本概念58
3.1.2分类的过程58
3.1.3分类器性能的评估方法59
3.2决策树61
3.2.1决策树的基本概念62
3.2.2决策树的用途和特性62
3.2.3决策树的工作原理63
3.2.4决策树的构建步骤64
3.2.5决策树算法原理65
3.3贝叶斯分类76
3.3.1贝叶斯定理76
3.3.2朴素贝叶斯分类77
3.3.3贝叶斯分析80
3.3.4贝叶斯决策80
3.3.5贝叶斯估计81
3.4支持向量机81
3.4.1支持向量机的主要思想82
3.4.2支持向量机的基础理论82
3.4.3支持向量机的原理87
3.5实战:Python支持向量机分类92
习题95
参考文献95
第4章回归98
4.1回归的基本概念99
4.1.1回归分析的定义99
4.1.2回归分析的步骤99
4.1.3回归分析要注意的问题100
4.2一元回归分析100
4.2.1一元回归分析的模型设定100
4.2.2回归参数的最小二乘估计102
4.2.3基本假设下OLS估计的统计性质104
4.2.4误差方差估计105
4.2.5回归系数检验(t检验)106
4.2.6拟合优度和模型检验(F检验)107
4.3多元线性回归分析108
4.3.1多元线性回归模型108
4.3.2多元线性回归模型的假定110
4.3.3多元线性回归模型的参数估计110
4.3.4显著性检验112
4.3.5回归变量的选择与逐步回归114
4.4逻辑回归分析116
4.4.1逻辑回归模型116
4.4.2logit变换117
4.4.3估计回归系数118
4.4.4Logistic分布118
4.4.5列联表的Logistic回归模型119
4.5其他回归分析120
4.5.1多项式回归120
4.5.2逐步回归120
4.5.3岭回归120
4.5.4套索回归121
4.5.5弹性网络122
4.6实战:获得优选有效率时的药物用量122
习题127
参考文献128
第5章聚类129
5.1聚类基本概念129
5.2划分聚类方法131
5.2.1k-平均算法132
5.2.2k-中心点算法134
5.3层次聚类方法137
5.3.1层次聚类方法的分类137
5.3.2BIRCH算法141


5.4密度聚类方法144

……

蜀ICP备2024047804号

Copyright 版权所有 © jvwen.com 聚文网