您好,欢迎来到聚文网。
登录
免费注册
网站首页
|
搜索
热搜:
磁力片
|
漫画
|
购物车
0
我的订单
商品分类
首页
幼儿
文学
社科
教辅
生活
销量榜
Spark大数据技术与应用 第2版 微课版
字数: 426000
装帧: 平装
出版社: 人民邮电出版社
出版日期: 2022-09-01
商品条码: 9787115595102
版次: 2
开本: 16开
页数: 284
出版年份: 2022
定价:
¥59.8
销售价:
登录后查看价格
¥{{selectedSku?.salePrice}}
库存:
{{selectedSku?.stock}}
库存充足
{{item.title}}:
{{its.name}}
加入购物车
立即购买
加入书单
收藏
精选
¥5.83
世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版
¥5.39
正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册
¥8.58
简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版
¥5.83
世界文学名著全49册中小学生青少年课外书籍文学小说批发正版
¥4.95
全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷
¥8.69
父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册
¥24.2
好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册
¥7.15
幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书
¥11.55
用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书
¥19.8
少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版
¥64
科学真好玩
¥12.7
一年级下4册·读读童谣和儿歌
¥38.4
原生态新生代(传统木版年画的当代传承国际研讨会论文集)
¥11.14
法国经典中篇小说
¥11.32
上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)
¥21.56
猫的摇篮(精)
¥30.72
幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书
¥24.94
旧时风物(精)
¥12.04
三希堂三帖/墨林珍赏
¥6.88
寒山子庞居士诗帖/墨林珍赏
¥6.88
苕溪帖/墨林珍赏
¥6.88
楷书王维诗卷/墨林珍赏
¥9.46
兰亭序/墨林珍赏
¥7.74
祭侄文稿/墨林珍赏
¥7.74
蜀素帖/墨林珍赏
¥12.04
真草千字文/墨林珍赏
¥114.4
进宴仪轨(精)/中国古代舞乐域外图书
¥24.94
舞蹈音乐的基础理论与应用
编辑推荐
1. 以任务为导向,全面讲解Spark基础知识 2. 随书附带案例数据及代码,方便读者系统学习并动手实践 3. 实战案例丰富 4. 配有微课视频,学习更方便 5. “十三五”职业教育国家规划教材全新改版
内容简介
本书以任务为导向,较为全面地介绍Spark大数据技术的相关知识。全书共9章,具体内容包括Spark概述、Scala基础、Spark编程基础、Spark编程进阶、SparkSQL—结构化数据文件处理、SparkStreaming—实时计算框架、SparkGraphX—图计算框架、SparkMLlib—功能强大的算法库,以及项目案例—广告检测的流量作弊识别。本书的大部分章节包含实训与课后习题,通过练习和实践操作,可以帮助读者巩固所学的内容。
本书可以作为高校大数据技术类专业教材,也可作为大数据技术爱好者的自学用书。
作者简介
肖芳,女,高级工程师。大学毕业后从事计算机软件的研究、设计、开发、实施等方面近十年,具有多年计算机软件开发与软件项目管理经验。后进入广东水利电力职业技术学院计算机系(目前为大数据与人工智能学院)担任专业教师,担任过大数据数学基础,Spark大数据快速运算、智能推荐等多门课程教学工作,曾主持和参加过多次科技厅局科研课题,负责和参加过十几项横向项目,获得过中国科学院广州分院、广东省科学院科技成果开发二等奖。在各类期刊上发表过多篇论文。指导学生毕业设计获得过学院毕业设计特别指导奖。 张良均,资深大数据专家,广东泰迪智能科技股份有限公司董事长,国家科技部入库技术专家,教育部全国专业学位水平评估专家,工信部教育与考试中心入库专家,中国工业与应用数学学会理事,广东省工业与应用数学学会副理事长,广东省高等职业教育教学指导委员会委员,华南师范大学、中南财经政法大学等40余所高校校外硕导或兼职教授,泰迪杯全国数据挖掘挑战赛发起人。曾在国内外重要学术刊物上发表学术论文10余篇,主导编写图书专著60余部,其中获普通高等教育“十一五”规划教材一部,“十三五”职业教育国家规划教材一部;参与标准建设4项,主持重量课题1项、省部级课题4项。获得SAS、SPSS数据挖掘认证及Hadoop开发工程师证书,具有信访、电力、电信、银行、制造企业、电子商务和电子政务的项目经验和行业背景,并荣获中国产学研合作促进奖、中国南方电网公司发明专利一等奖、广东省农业技术推广二等奖、广州市荔湾区科学技术进步奖。
目录
第1章Spark概述1
任务1.1认识Spark1
1.1.1了解Spark的发展历史1
1.1.2了解Spark的特点2
1.1.3认识Spark的生态圈4
1.1.4了解Spark的应用场景5
任务1.2搭建Spark集群6
1.2.1搭建单机版集群6
1.2.2搭建单机伪分布式集群6
1.2.3搭建接近分布式集群7
任务1.3了解Spark运行架构与原理11
1.3.1了解Spark架构11
1.3.2了解Spark作业运行流程12
1.3.3了解Spark核心数据集RDD15
1.3.4了解Spark核心原理17
小结19
课后习题19
第2章Scala基础20
任务2.1安装与运行Scala21
2.1.1了解Scala语言21
2.1.2了解Scala特性21
2.1.3安装Scala22
2.1.4运行Scala24
任务2.2定义函数识别号码类型24
2.2.1了解数据类型25
2.2.2定义与使用常量、变量25
2.2.3使用运算符26
2.2.4定义与使用数组27
2.2.5定义与使用函数30
2.2.6任务实现32
任务2.3统计广州号码段数量33
2.3.1使用if判断34
2.3.2使用for循环35
2.3.3任务实现36
任务2.4根据归属地对手机号码段进行分组37
2.4.1定义与使用列表37
2.4.2定义与使用集合39
2.4.3定义与使用映射39
2.4.4定义与使用元组40
2.4.5使用函数组合器40
2.4.6任务实现41
任务2.5编写手机号码归属地信息查询程序42
2.5.1定义Scala类42
2.5.2使用Scala单例模式44
2.5.3使用Scala模式匹配45
2.5.4读写文件46
2.5.5任务实现46
小结47
实训47
实训1使用Scala编写函数过滤文本中的回文单词47
实训2使用Scala编程输出九九乘法表48
课后习题49
第3章Spark编程基础51
任务3.1读取员工薪资数据创建RDD52
3.1.1从内存中读取数据创建RDD52
3.1.2从外部存储系统中读取数据创建RDD53
3.1.3任务实现54
任务3.2查询上半年实际薪资排名前3的员工信息55
3.2.1使用map()方法转换数据55
3.2.2使用sortBy()方法进行排序55
3.2.3使用collect()方法查询数据56
3.2.4使用flatMap()方法转换数据57
3.2.5使用take()方法查询某几个值57
3.2.6任务实现58
任务3.3查询上半年或下半年实际薪资大于20万元的员工姓名59
3.3.1使用union()方法合并多个RDD59
3.3.2使用filter()方法进行过滤60
3.3.3使用distinct()方法进行去重60
3.3.4使用简单的集合操作60
3.3.5任务实现62
任务3.4输出每位员工2020年的总实际薪资63
3.4.1了解键值对RDD63
3.4.2创建键值对RDD64
3.4.3使用键值对RDD的keys和values方法64
3.4.4使用键值对RDD的reduceByKey()方法65
3.4.5使用键值对RDD的groupByKey()方法66
3.4.6任务实现66
任务3.5查询每位员工2020年的月均实际薪资67
3.5.1使用join()方法连接两个RDD67
3.5.2使用zip()方法组合两个RDD69
3.5.3使用combineByKey()方法合并相同键的值70
3.5.4使用lookup()方法查找指定键的值71
3.5.5任务实现71
任务3.6存储汇总后的员工薪资为文本文件72
3.6.1读取与存储JSON文件72
3.6.2读取与存储CSV文件75
3.6.3读取与存储SequenceFile文件78
3.6.4读取与存储文本文件79
3.6.5任务实现80
小结82
实训82
实训1通过Spark编程统计某月份的客户总消费金额82
实训2通过Spark编程计算各城市的平均气温82
课后习题83
第4章Spark编程进阶86
任务4.1搭建Spark开发环境87
4.1.1下载与安装IntelliJIDEA87
4.1.2Scala插件安装与使用89
4.1.3配置Spark运行环境94
4.1.4运行Spark程序96
任务4.2统计分析竞赛网站用户访问日志数据104
4.2.1设置RDD持久化104
4.2.2设置数据分区105
4.2.3计算竞赛网站每月的访问量109
4.2.4任务实现111
小结112
实训自定义分区器实现按人物标签进行数据区分112
课后习题113
第5章SparkSQL—结构化数据文件处理116
任务5.1认识SparkSQL117
5.1.1了解SparkSQL基本概念117
5.1.2配置SparkSQL117
5.1.3了解SparkSQL与Shell交互119
任务5.2掌握DataFrame基础操作120
5.2.1创建DataFrame对象120
5.2.2查看DataFrame数据122
5.2.3掌握DataFrame查询操作125
5.2.4掌握DataFrame输出操作134
任务5.3探索分析房屋售价数据136
5.3.1获取数据136
5.3.2探索字段值分布137
5.3.3统计各季度房屋销量和销售额139
5.3.4探索分析房屋评分141
5.3.5探索修缮过的房屋房龄分布142
5.3.6任务实现143
小结145
实训146
实训1基于DataFrame实现老师教学质量统计分析146
实训2基于DataFrame实现学生成绩统计分析147
课后习题148
第6章SparkStreaming—实时计算框架150
任务6.1初识SparkStreaming151
6.1.1了解SparkStreaming基本概念151
6.1.2了解SparkStreaming运行原理151
6.1.3初步使用SparkStreaming152
任务6.2掌握DStream基础操作155
6.2.1了解DStream编程模型155
6.2.2使用DStream转换操作155
6.2.3使用DStream窗口操作157
6.2.4使用DStream输出操作160
任务6.3实现书籍热度实时计算165
6.3.1获取输入数据源165
6.3.2计算用户评分次数及平均评分168
6.3.3计算书籍被评分次数及平均评分169
6.3.4实时计算书籍热度171
6.3.5任务实现172
小结174
实训174
实训1使用SparkStreaming实现课程实时查找174
实训2使用SparkStreaming实时统计广告点击量前3名175
课后习题176
第7章SparkGraphX—图计算框架179
任务7.1认识SparkGraphX180
7.1.1了解图的基本概念180
7.1.2了解图计算的应用181
7.1.3了解GraphX的基础概念181
7.1.4了解GraphX的发展历程181
任务7.2了解GraphX常用API182
7.2.1创建与存储图182
7.2.2查询与转换数据188
7.2.3转换结构与关联聚合数据195
任务7.3统计网页价值排名前10的网页203
7.3.1构建网页结构图203
7.3.2计算网页得分204
7.3.3找出排名前10的网页204
7.3.4任务实现205
小结207
实训207
实训1使用SparkGraphX实现家庭关系网络图构建及查询207
实训2使用SparkGraphX统计拥有影响力用户208
课后习题210
第8章SparkMLlib—功能强大的算法库213
任务8.1了解MLlib算法库215
8.1.1了解机器学习算法215
8.1.2使用MLlib216
任务8.2使用决策树算法实现网络攻击类型识别232
8.2.1分析思路232
……
×
Close
添加到书单
加载中...
点此新建书单
×
Close
新建书单
标题:
简介:
蜀ICP备2024047804号
Copyright 版权所有 © jvwen.com 聚文网