您好,欢迎来到聚文网。
登录
免费注册
网站首页
|
联系客服
|
搜索
热搜:
巴比伦首富
|
毛选
|
巴比伦
|
购物车
0
我的订单
商品分类
首页
幼儿
文学
社科
教辅
生活
销量榜
Spark机器学习
字数: 355.00千字
装帧: 平装
出版社: 人民邮电出版社
作者: (南非)彭特里思(Nick Pentreath) 著;蔡立宇,黄章帅,周济民 译
出版日期: 2015-09-01
商品条码: 9787115399830
版次: 1
开本: 16开
页数: 224
出版年份: 2015
定价:
¥59
销售价:
登录后查看价格
¥{{selectedSku?.salePrice}}
库存:
{{selectedSku?.stock}}
库存充足
{{item.title}}:
{{its.name}}
加入购物车
立即购买
收藏
上架到店铺
×
Close
上架到店铺
{{shop.name}}
点此去绑定店铺
精选
¥5.83
世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版
¥5.39
正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册
¥8.58
简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版
¥5.83
世界文学名著全49册中小学生青少年课外书籍文学小说批发正版
¥4.95
全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷
¥8.69
父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册
¥24.2
好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册
¥7.15
幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书
¥11.55
用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书
¥19.8
少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版
¥64
科学真好玩
¥12.7
一年级下4册·读读童谣和儿歌
¥38.4
原生态新生代(传统木版年画的当代传承国际研讨会论文集)
¥11.14
法国经典中篇小说
¥11.32
上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)
¥22.05
猫的摇篮(精)
¥30.72
幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书
¥24.94
旧时风物(精)
¥12.04
三希堂三帖/墨林珍赏
¥6.88
寒山子庞居士诗帖/墨林珍赏
¥6.88
苕溪帖/墨林珍赏
¥6.88
楷书王维诗卷/墨林珍赏
¥9.46
兰亭序/墨林珍赏
¥7.74
祭侄文稿/墨林珍赏
¥7.74
蜀素帖/墨林珍赏
¥12.04
真草千字文/墨林珍赏
¥114.4
进宴仪轨(精)/中国古代舞乐域外图书
¥24.94
舞蹈音乐的基础理论与应用
内容简介
《spark机器学习》每章都设计了案例研究,以机器学习算法为主线,结合实例探讨了spark 的实际应用。书中没有让人抓狂的数据公式,而是从准备和正确认识数据开始讲起,全面涵盖了推荐系统、回归、聚类、降维等经典的机器学习算法及其实际应用。
作者简介
彭特里思,是Graphflow公司联合创始人。Graphflow是一家大数据和机器学习公司,专注于以用户为中心的推荐系统和客户服务智能化技术。Nick拥有金融市场、机器学习和软件开发背景,曾任职于高盛集团,之后去在线广告营销创业公司Cognitive Match Limited(伦敦)担任研究科学家,后又去非洲优选的社交网络Mxit领导数据科学与分析团队。Nick是Apache Spark项目管理委员会成员之一。
蔡立宇,毕业于爱丁堡大学信息学院。2012年加入华傲数据,从事自然语言处理和图数据分析相关工作。现从事数据相关的咨询和设计服务。
黄章帅,目前就读于北京大学,研究生二年级,研究方向是自然语言处理和机器学习,现在在新加坡交流。
周济民,曾就职于上海一家金融公司,从事自然语言处理工作,目前在阿里巴巴负责Spark内核开发。喜欢机器学习,热爱数学,对新鲜事物有着强烈的探求欲望。
目录
第1章Spark的环境搭建与运行1
1.1Spark的本地安装与配置2
1.2Spark集群3
1.3Spark编程模型4
1.3.1SparkContext类与SparkConf类4
1.3.2Sparkshell5
1.3.3弹性分布式数据集6
1.3.4广播变量和累加器10
1.4SparkScala编程入门11
1.5SparkJava编程入门14
1.6SparkPython编程入门17
1.7在AmazonEC2上运行Spark18
1.8小结23
第2章设计机器学习系统24
2.1MovieStream介绍24
2.2机器学习系统商业用例25
2.2.1个性化26
2.2.2目标营销和客户细分26
2.2.3预测建模与分析26
2.3机器学习模型的种类27
2.4数据驱动的机器学习系统的组成27
2.4.1数据获取与存储28
2.4.2数据清理与转换28
2.4.3模型训练与测试回路29
2.4.4模型部署与整合30
2.4.5模型监控与反馈30
2.4.6批处理或实时方案的选择31
2.5机器学习系统架构31
2.6小结33
第3章Spark上数据的获取、处理与准备34
3.1获取公开数据集35
3.2探索与可视化数据37
3.2.1探索用户数据38
3.2.2探索电影数据41
3.2.3探索评级数据43
3.3处理与转换数据46
3.4从数据中提取有用特征48
3.4.1数值特征48
3.4.2类别特征49
3.4.3派生特征50
3.4.4文本特征51
3.4.5正则化特征55
3.4.6用软件包提取特征56
3.5小结57
第4章构建基于Spark的推荐引擎58
4.1推荐模型的分类59
4.1.1基于内容的过滤59
4.1.2协同过滤59
4.1.3矩阵分解60
4.2提取有效特征64
4.3训练推荐模型67
4.3.1使用MovieLens100k数据集训练模型67
4.3.2使用隐式反馈数据训练模型68
4.4使用推荐模型69
4.4.1用户推荐69
4.4.2物品推荐72
4.5推荐模型效果的评估75
4.5.1均方差75
4.5.2K值平均准确率77
4.5.3使用MLlib内置的评估函数81
4.6小结82
第5章Spark构建分类模型83
5.1分类模型的种类85
5.1.1线性模型85
5.1.2朴素贝叶斯模型89
5.1.3决策树90
5.2从数据中抽取合适的特征91
5.3训练分类模型93
5.4使用分类模型95
5.5评估分类模型的性能96
5.5.1预测的正确率和错误率96
5.5.2准确率和召回率97
5.5.3ROC曲线和AUC99
5.6改进模型性能以及参数调优101
5.6.1特征标准化101
5.6.2其他特征104
5.6.3使用正确的数据格式106
5.6.4模型参数调优107
5.7小结115
第6章Spark构建回归模型116
6.1回归模型的种类116
6.1.1最小二乘回归117
6.1.2决策树回归117
6.2从数据中抽取合适的特征118
6.3回归模型的训练和应用123
6.4评估回归模型的性能125
6.4.1均方误差和均方根误差125
6.4.2平均绝对误差126
6.4.3均方根对数误差126
6.4.4R-平方系数126
6.4.5计算不同度量下的性能126
6.5改进模型性能和参数调优127
6.5.1变换目标变量128
6.5.2模型参数调优132
6.6小结140
第7章Spark构建聚类模型141
7.1聚类模型的类型142
7.1.1K-均值聚类142
7.1.2混合模型146
7.1.3层次聚类146
7.2从数据中提取正确的特征146
7.3训练聚类模型150
7.4使用聚类模型进行预测151
7.5评估聚类模型的性能155
7.5.1内部评价指标155
7.5.2外部评价指标156
7.5.3在MovieLens数据集计算性能156
7.6聚类模型参数调优156
7.7小结158
第8章Spark应用于数据降维159
8.1降维方法的种类160
8.1.1主成分分析160
8.1.2奇异值分解160
8.1.3和矩阵分解的关系161
8.1.4聚类作为降维的方法161
8.2从数据中抽取合适的特征162
8.3训练降维模型169
8.4使用降维模型172
8.4.1在LFW数据集上使用PCA投影数据172
8.4.2PCA和SVD模型的关系173
8.5评价降维模型174
8.6小结176
第9章Spark高级文本处理技术177
9.1处理文本数据有什么特别之处177
9.2从数据中抽取合适的特征177
9.2.1短语加权表示178
9.2.2特征哈希179
9.2.3从20新闻组数据集中提取TF-IDF特征180
9.3使用TF-IDF模型192
9.3.120Newsgroups数据集的文本相似度和TF-IDF特征192
9.3.2基于20Newsgroups数据集使用TF-IDF训练文本分类器194
9.4评估文本处理技术的作用196
9.5Word2Vec模型197
9.6小结200
第10章SparkStreaming在实时机器学习上的应用201
10.1在线学习201
10.2流处理202
10.2.1SparkStreaming介绍202
10.2.2使用SparkStreaming缓存和容错205
10.3创建SparkStreaming应用206
10.3.1消息生成端207
10.3.2创建简单的流处理程序209
10.3.3流式分析211
10.3.4有状态的流计算213
10.4使用SparkStreaming进行在线学习215
10.4.1流回归215
10.4.2一个简单的流回归程序216
10.4.3流K-均值220
10.5在线模型评估221
10.6小结224
×
Close
添加到书单
加载中...
点此新建书单
×
Close
新建书单
标题:
简介:
蜀ICP备2024047804号
Copyright 版权所有 © jvwen.com 聚文网