您好,欢迎来到聚文网。 登录 免费注册
数据挖掘核心技术揭秘

数据挖掘核心技术揭秘

  • 装帧: 平装
  • 出版社: 机械工业出版社
  • 作者: 贾双成,王奇 著 著
  • 出版日期: 2016-01-01
  • 商品条码: 9787111519249
  • 版次: 1
  • 开本: 16开
  • 页数: 201
  • 出版年份: 2016
定价:¥59 销售价:登录后查看价格  ¥{{selectedSku?.salePrice}} 
库存: {{selectedSku?.stock}} 库存充足
{{item.title}}:
{{its.name}}
精选
内容简介
阿里巴巴高级工程师多年经验结晶,通过实际数据挖掘项目经验,深入浅出阐明数据挖掘的本质。贾双成、王奇编著的这本《数据挖掘核心技术揭秘》以案例驱动为导向,结合理论分析,内容涵盖数据挖掘领域的所有关键技术,包括基础知识、聚类、分类、回归与应用。
本书包括五部分内容。第一部分(第1~3章)涉及数据挖掘技术的基础知识,介绍数据挖掘的定义、数据挖掘工具及应用领域,数据挖掘的数学基础内容,以及海量数据挖掘处理技术。第二部分(第4~5章)分别从聚类技术和离群点挖掘技术阐述聚类在语音区分、新闻分组、销售策略制定、交通事故预测、欺诈检测、入侵检测、异常气候检测等方面的应用。第三部分(第6~11章)分别从决策树、基于实例的学习、支持向量机、贝叶斯学习、人工神经网络、遗传算法在病情诊断、信用卡欺诈、机械装备设计、法律案件审理、动物分类、垃圾邮件过滤、手写文字识别、股票价格预测、人脸识别、音乐生成等方面阐述分类的应用。第四部分(第12章)阐述回归数据挖掘技术的应用,涉及卡尔曼算法在股票价格预测、GPS定位方面的应用。第五部分(第13章)介绍推荐系统这个最典型的数据挖掘应用。附录总结本书内容,阐述数据挖掘技术的数学本质。
作者简介
贾双成,江南大学硕士,现为阿里巴巴高级工程师,擅长于数据编译、数据挖掘的系统分析和架构设计,研究方向包括几何算法、数据编译、数据挖掘算法及应用。曾发表专利、论文三十余篇。在研究算法之余,也喜欢涉猎管理学、哲学、心理学、历史等领域的知识。
王奇,阿里巴巴工程师,北京航空航天大学硕士,擅长于智能交通数据处理、数据挖掘,研究方向包括导航定位、浮动车处理、数据挖掘算法及应用。曾发表发明专利、论文10余项或篇,喜欢旅游,爱好阅读,广泛涉猎文学、小说、经济类书籍。
目录
前言
第一部分基础知识
第1章引言
1.1数据挖掘的含义
1.2数据挖掘的演变过程
1.3数据工具简介
1.3.1Hadoop与MapReduce
1.3.2Pig语言
1.3.3MATLAB编程
1.3.4SAS
1.3.5WEKA
1.3.6R语言编程
1.4数据挖掘应用领域
1.5小结
第2章数学基础
2.1概率统计
2.1.1基本概念
2.1.2随机变量及其分布
2.2相似度
2.2.1期望与方差
2.2.2距离
2.2.3相关系数
2.3矩阵计算
2.4最小二乘法
2.4.1最小二乘法定义
2.4.2回归
2.4.3参数的最小二乘法估计
第3章海量数据处理技术
3.1索引技术
3.1.1数据库索引
3.1.2文本索引
3.2海量数据处理技术
3.2.1外排序
3.2.2分布式处理
3.2.3Bloomfilter
3.2.4常用技巧
第二部分聚类
第4章聚类
4.1应用场景
4.1.1语音区分
4.1.2新闻分组
4.1.3选定销售策略
4.1.4交通事件预测
4.2聚类技术
4.2.1划分聚类
4.2.2层次聚类
4.2.3基于密度的聚类
4.2.4基于网格的聚类
4.3多元分析
4.3.1主成分分析法
4.3.2因子分析
4.3.3对比分析
第5章离群点挖掘技术
5.1应用场景
5.1.1异常交通事件检测
5.1.2欺诈检测
5.1.3入侵检测
5.1.4异常气候检测
5.2离群点挖掘技术
5.2.1基于统计的离群点挖掘技术
5.2.2基于邻近度的离群点挖掘技术
5.2.3基于密度的离群点挖掘技术
5.2.4基于聚类的离群点挖掘技术
5.2.5高维数据的离群点检测算法
第三部分分类
第6章决策树
6.1应用场景
6.1.1病情诊断
6.1.2信用卡欺诈检测
6.2决策树技术
6.2.1概述
6.2.2技术实现
6.2.3多分类决策树
6.2.4参考实例
第7章基于实例的学习
7.1应用场景
7.1.1机械装备的总体设计
7.1.2对新的法律案件的推理
7.1.3规划或调度问题
7.2K近邻算法
7.3K-D树
7.3.1近邻的实现:K-D树
7.3.2K-D树的构建
7.3.3K-D树的最近邻搜索算法
第8章支持向量机
8.1应用场景
8.1.1病情分类
8.1.2动物分类
8.2支持向量机技术
8.2.1概述
8.2.2技术实现
8.2.3核函数
8.2.4多类分类器
第9章贝叶斯学习
9.1应用场景
9.1.1垃圾邮件过滤
9.1.2手写文字识别
9.1.3拼写检查
9.1.4分词
9.1.5语音识别
9.1.6股票价格预测
9.1.7病情诊断
9.1.8选定销售策略
9.1.9交通事件预测
9.2贝叶斯学习技术
9.2.1概述
9.2.2技术实现
9.2.3参考实例
第10章人工神经网络
10.1应用场景
10.1.1信用卡欺诈检测
10.1.2病情诊断
10.1.3足球比赛预测
10.1.4图像姿势识别
10.1.5利用图像识别的自动驾驶
10.1.6人脸识别
10.1.7语音分类识别
10.2人工神经网络技术
10.2.1概述
10.2.2技术实现
10.2.3参考实例
第11章遗传算法
11.1应用场景
11.1.1私人定制的电影
11.1.2国际象棋学习
11.1.3电路设计
11.1.4机器人的模拟控制
11.1.5函数设计
11.1.6唐诗生成器
11.1.7音乐生成器
11.2遗传技术
11.2.1概述
11.2.2技术实现
11.2.3参考实例:背包问题
第四部分回归
第12章卡尔曼算法
12.1应用场景
12.1.1股票价格预测
12.1.2GPS定位预测
12.2卡尔曼技术
12.2.1卡尔曼算法定义
12.2.2技术实现
12.2.3参考实例:GPS定位
第五部分应用
第13章推荐系统
13.1应用场景
13.1.1歌曲推荐
13.1.2QQ好友圈子的推荐功能
13.1.3今日头条
13.1.4淘宝商品推荐
13.1.5Netflix电影推荐
13.1.6豆瓣FM的推荐
13.1.7为用户定制的广告
13.1.8苹果APP排名的规则
13.2推荐系统技术
13.2.1协同过滤
13.2.2基于内容的推荐
13.2.3推荐系统的缺陷
13.2.4潜在因子算法
13.2.5参考实例:音乐推荐
附录A数据挖掘技术总结
摘要
前言我们畅想一下未来,想象未来社会的样子。 未来社会每个人都与多台智能设备绑定,每个人如同一个数据提供商,不停地向网络上传送数据:自己的照片、爱好、欲望、踪迹等。而网络上这些数据也不停地得到反馈:周围的人(另一些数据提供商)给这些数据加赞、评论。 未来的总统大选是基于数据挖掘而建立的,所讲的每一句话都是数据挖掘的结果,数据挖掘就这样决定了未来政治的形态。 未来的娱乐也是数据挖掘的结果,只要你需要,一切都是数据挖掘自动生成的,包括电影、小说等,它们都是根据需要而生成的。人在按照需求改造外在世界的同时,由于对计算机的强烈依赖,人已经沉溺在一个计算机世界里,被计算机完全包围,计算机成为人的第二个大脑。 在这里,对其他人来说,每个人就是手机或者电视里的一个影像,这个影像是可以进行保存、复制、粘贴等各种数据加工的。 试看地铁上、餐馆里绝大多数的人是不是在低头看手机?这是一种不可阻挡的趋势,这种趋势只会愈演愈烈。 不久的将来,这种趋势必将给社会伦理学、社会规范带来一场真正意义的革命,所有社会性的常识、规范都将重塑,包括社交、娱乐、休闲、购物、分享等群体交际的行为都将得到全新变革。这些群体性行为好像人这个“硬件”上面附属的操作系统一样,由于大数据时代的带来,将会被更换一套全新的操作系统,这套操作系统是由数据组成的。 我们能做什么呢?我们能做的只有去适应。 数据挖掘就是能让未来生活更美好的唯一出路。在未来的社会,不管你想做成什么,归根到底都要求助于各种各样的数据处理。 以开餐馆为例。 在什么地方开餐馆取决于周围客流和周围人的饮食喜好等情况。 菜单的菜品取决于周围餐馆的差异化竞争和就餐人群的饮食喜好。 招聘服务员所给的工资取决于周围行业的工资。 对服务员的培训可参考KFC等企业的培训。 ……数据挖掘是一个如此重要的领域,但是,在目前的市场上,大部分书籍都是外国的翻译书籍,偶尔有国内的书籍,基本上也是纸上谈兵的泛泛之谈,书中所讲的技术和实现与目前企业界的技术与实现严重不符,技术人员获得的帮助有限。 本书是作者为了解决这个问题的一个尝试。本书以企业界的实际案例为主,力求揭示数据挖掘技术的本质,不拘泥于文字和名词。 一本参考书需要经过许多人的使用和反馈之后才能变得更加完善。由于本书作者的经验和时间有限,书中的错误和纰漏难免,敬请读者不吝指正。 贾双成  王奇

蜀ICP备2024047804号

Copyright 版权所有 © jvwen.com 聚文网