大数据平台技术实例教程--聚文网

精选

¥5.83

世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版

¥5.39

正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册

¥8.58

简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版

¥5.83

世界文学名著全49册中小学生青少年课外书籍文学小说批发正版

¥4.95

全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷

¥8.69

父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册

¥24.2

好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册

¥7.15

幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书

¥11.55

用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书

¥19.8

少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版

¥64

科学真好玩

¥12.7

一年级下4册·读读童谣和儿歌

¥38.4

原生态新生代(传统木版年画的当代传承国际研讨会论文集)

¥11.14

法国经典中篇小说

¥11.32

上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)

¥22.05

猫的摇篮(精)

¥30.72

幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书

旧时风物(精)

三希堂三帖/墨林珍赏

寒山子庞居士诗帖/墨林珍赏

苕溪帖/墨林珍赏

楷书王维诗卷/墨林珍赏

兰亭序/墨林珍赏

祭侄文稿/墨林珍赏

蜀素帖/墨林珍赏

真草千字文/墨林珍赏

进宴仪轨(精)/中国古代舞乐域外图书

舞蹈音乐的基础理论与应用

内容简介

本书通过大量实例介绍大数据平台技术，分4篇。大数据存储篇包括第1~3章，内容包括大数据技术概述、数据采集和大数据、大数据框架的安装和配置；大数据管理篇包括第4~7章，内容包括HDFS、Hadoop分布式计算模型、分布式协调服务ZooKeeper、Hadoop的集群资源管理系统YARN；大数据分析篇包括第8~10章，内容包括数据库MySQL和数据仓库Hive、NoSQL数据库HBase、基于内存的分布式计算框架Spark；大数据应用篇包括第11、12章，内容包括数据可视化、大数据应用综合案例。本书可作为高等学校数据科学与大数据技术、计算机科学与技术、人工智能等理工类专业大数据平台技术课程的教材，也可供广大计算机爱好者及软件开发人员参考。

第1篇大数据存储篇
第1章大数据技术概述1
1.1大数据源起和应用1
1.2大数据技术框架2
1.3大数据就业岗位5
1.4大数据的特点8
1.5大数据的深远影响9
1.6大数据的意义和发展目标9
1.7大数据与云计算、物联网、
人工智能的关系10
1.8教材在线资源及使用说明12
1.9本章思维导图14
1.10习题14
第2章数据采集和大数据15
2.1数据采集和ETL15
2.2网络爬虫15
2.2.1通用网络爬虫与聚焦网络
爬虫16
2.2.2网络爬虫的工作过程16
2.3Python常用开发工具简介16
2.3.1Python开发环境搭建17
2.3.2开发工具PyCharm17
2.3.3开发工具JupyterNotebook17
2.4Python语言简介18
2.4.1Python常见的数据类型18
2.4.2NumPy库22
2.5基于Python的网络爬虫应用
实例25
2.5.1Urllib库介绍25
2.5.2数据采集和ETL实例28
2.6本章思维导图32
2.7习题32
第3章大数据框架的安装和配置33
3.1大数据框架配置环境33
3.2Linux操作系统介绍34
3.2.1Linux的发展历史34
3.2.2Linux版本特点35
3.2.3Linux版本选择36
3.3Linux终端常见命令37
3.3.1基本命令37
3.3.2目录操作命令38
3.3.3文件操作命令41
3.3.4系统工作命令51
3.3.5其他常见命令54
3.4虚拟机的使用57
3.5远程登录工具配置57
3.6Hadoop伪分布式安装和使用58
3.6.1环境配置58
3.6.2配置SSH免密登录58
3.6.3配置JDK58
3.6.4Hadoop伪分布式配置59
3.6.5运行WordCount实例60
3.7本章思维导图61
3.8习题62
第2篇大数据管理篇
第4章HDFS63
4.1引言63
4.2HDFS基础知识64
4.2.1HDFS的特点65
4.2.2HDFS的优缺点65
4.2.3HDFS的核心概念66
4.2.4HDFS执行流程66
4.3HDFS的常用Shell命令68
4.4Hadoop中HDFS的Web管理
界面72
4.5基于JavaAPI的HDFS操作73
4.5.1实验环境配置74
4.5.2案例实现76
4.6本章思维导图78
4.7习题78
第5章Hadoop分布式计算模型79
5.1接近分布式环境配置79
5.2接近分布式配置步骤80
5.3MapReduce计算模型83
5.4Mapper-Reducer实例84
5.4.1实验准备84
5.4.2案例实现84
5.5本章思维导图89
5.6习题89
第6章分布式协调服务ZooKeeper90
6.1高可靠性大数据框架配置90
6.2ZooKeeper简介91
6.3ZooKeeper的常用命令92
6.4ZooKeeper的安装与运行93
6.5本章思维导图95
6.6习题95
第7章Hadoop的集群资源管理系统
YARN96
7.1Hadoop资源管理配置96
7.2YARN简介97
7.3YARN的工作流程98
7.4YARN的安装与运行99
7.5本章思维导图100
7.6习题101
第3篇大数据分析篇
第8章数据库MySQL和数据仓库
Hive102
8.1基于Hive的大数据分析
配置102
8.2Hive的意义和应用103
8.3Hive和数据库的异同104
8.4Hive的架构模式及其执行106
8.5MySQL的安装和使用108
8.5.1MySQL数据库简介108
8.5.2安装MySQL109
8.5.3MySQL的基本操作109
8.6Hive的安装114
8.7Hive表的操作114
8.7.1内部表和外部表114
8.7.2Hive表的操作115
8.8典型内置函数与自定义函数118
8.8.1空值转换函数nvl118
8.8.2casewhen和sum函数的综合
应用119
8.8.3UDAF聚合函数concat121
8.8.4UDTF炸裂函数explode123
8.8.5窗口函数124
8.8.6自定义函数实例127
8.9本章思维导图131
8.10习题131
第9章NoSQL数据库HBase132
9.1大数据框架的数据库存储
配置132
9.2NoSQL概念和分类133
9.3HBase数据库134
9.3.1HBase数据模型135
9.3.2HBase体系架构及组件136
9.4HBase的安7
9.4.1伪分布式137
9.4.2接近分布式137
9.4.3HBase的启动和关闭138
9.4.4HBase的网页端139
9.5HBase的Shell操作141
9.6基于JavaAPI访问HBase
实例146
9.6.1准备工作146
9.6.2Eclipse环境下编程146
9.7HBase综合实例150
9.8本章思维导图157
9.9习题157
第10章基于内存的分布式计算
框架Spark158
10.1基于Spark的大数据分析框架
配置158
10.2Spark基础知识159
10.2.1Spark的特点159
10.2.2Spark和Hadoop的比较160
10.2.3RDD的概念161
10.2.4Spark的运行机制161
10.2.5Spark的运行模式163
10.3Spark的安装和使用164
10.3.1Spark安装164
10.3.2Python3和Jupyter安装165
10.3.3启动PySpark166
10.4Spark的常用操作168
10.5SparkSQL的应用174
10.6Spark综合应用实例178
10.7Spark的机器学习179
10.7.1MLlib179
10.7.2Scala语言180
10.7.3MLlib的机器学习算法181
10.7.4Spark的机器学习流程183
10.8本章思维导图194
10.9习题194
第4篇大数据应用篇
第11章数据可视化195
11.1可视化分析展示配置195
11.2数据可视化概述195
11.3数据可视化绘图197
11.3.1绘制折线图197
11.3.2绘制柱状图198
11.3.3绘制直方图199
11.3.4绘制散点图200
11.3.5绘制饼图201
11.3.6绘制极坐标图202
11.3.7绘制雷达图203
11.3.8绘制热力图205
11.3.9绘制3D图206
11.4综合实例―鸢尾花数据集的
可视化分析207
11.4.1实验环境搭建207
11.4.2数据集介绍208
11.4.3数据可视化208
11.5本章思维导图217
11.6习题217
第12章大数据应用综合案例218
12.1医疗大数据应用框架配置218
12.2案例概述218
12.2.1背景和意义218
12.2.2预备知识220
12.2.3技术方案223
12.3准备数据和开发环境配置224
12.3.1实验环境安装简述224
12.3.2Sqoop的安装和使用225
12.3.3数据集介绍225
12.4数据探索性分析226
12.5数据迁移235
12.6数据预处理239
12.7数据建模与训练241
12.8模型评估244
12.8.1特征重要性244
12.8.2混淆矩阵245
12.8.3评估指标245
12.8.4ROC曲线247
12.9本章思维导图248
12.10习题248
附录A教材实验249
实验1：基于Python的数据抓取和
清洗249
实验2：基于Linux的Hadoop伪
分布式安装和操作250
实验3：分布式Hadoop的配置和
使用252
实验4：基于数据仓库Hive的数据
分析253
实验5：NoSQL数据库HBase
使用255
实验6：基于分布式Spark框架的
编程256
实验7：综合案例设计与实现258
参考文献260

大数据平台技术实例教程

库存： {{selectedSku?.stock}} 库存充足

上架到店铺