您好,欢迎来到聚文网。
登录
免费注册
网站首页
|
搜索
热搜:
磁力片
|
漫画
|
购物车
0
我的订单
商品分类
首页
幼儿
文学
社科
教辅
生活
销量榜
大数据平台运维(中级)
字数: 489700
装帧: 平装
出版社: 电子工业出版社
出版日期: 2021-04-01
商品条码: 9787121410307
版次: 1
开本: 16开
页数: 292
出版年份: 2021
定价:
¥69.8
销售价:
登录后查看价格
¥{{selectedSku?.salePrice}}
库存:
{{selectedSku?.stock}}
库存充足
{{item.title}}:
{{its.name}}
加入购物车
立即购买
加入书单
收藏
精选
¥5.83
世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版
¥5.39
正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册
¥8.58
简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版
¥5.83
世界文学名著全49册中小学生青少年课外书籍文学小说批发正版
¥4.95
全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷
¥8.69
父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册
¥24.2
好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册
¥7.15
幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书
¥11.55
用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书
¥19.8
少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版
¥64
科学真好玩
¥12.7
一年级下4册·读读童谣和儿歌
¥38.4
原生态新生代(传统木版年画的当代传承国际研讨会论文集)
¥11.14
法国经典中篇小说
¥11.32
上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)
¥21.56
猫的摇篮(精)
¥30.72
幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书
¥24.94
旧时风物(精)
¥12.04
三希堂三帖/墨林珍赏
¥6.88
寒山子庞居士诗帖/墨林珍赏
¥6.88
苕溪帖/墨林珍赏
¥6.88
楷书王维诗卷/墨林珍赏
¥9.46
兰亭序/墨林珍赏
¥7.74
祭侄文稿/墨林珍赏
¥7.74
蜀素帖/墨林珍赏
¥12.04
真草千字文/墨林珍赏
¥114.4
进宴仪轨(精)/中国古代舞乐域外图书
¥24.94
舞蹈音乐的基础理论与应用
内容简介
本书为“1+X”职业技能等级证书配套教材,按国家1+X证书制度试点大数据平台运维职业技能等级标准编写。本书从大数据平台运维工程师的角度,由浅入深、全方位地介绍了大数据平台运维的相关实践知识和核心实操。本书共六部分,包括21章:第一部分,大数据平台架构,涉及大数据的特点及发展趋势、大数据的实施和运维流程、大数据的应用场景与案例;第二部分,大数据平台高可用(HA)集群部署,涉及Hadoop集群基础环境的配置、HadoopHA集群的配置、HadoopHA集群的启动;第三部分,大数据组件的维护,涉及HBase组件的维护、Hive组件的维护、ZooKeeper组件的维护、ETL组件的维护、Spark组件的维护;第四部分,大数据平台优化,涉及Linux系统优化、HDFS配置优化、MapReduce配置优化、Spark配置优化;第五部分,大数据平台的诊断与处理,涉及Hadoop及生态圈组件负载均衡的诊断与处理、集群节点故障的诊断与处理、集群组件服务故障的诊断与处理;第六部分,大数据平台项目综合案例,涉及数据仓库运维项目实战、金融行业运维项目实战、典型大数据平台监控运维项目实战。本书可作为中职院校和高职院校大数据及计算机类相关专业的教材,也可作为大数据平台运维人员的参考用书。
目录
第一部分大数据平台架构
第1章大数据的特点及发展趋势2
1.1大数据平台架构概述2
1.1.1大数据的概念2
1.1.2大数据的特征3
1.1.3大数据的处理流程及相关技术4
1.1.4大数据平台架构的特点5
1.2大数据平台架构的原理5
1.3大数据的发展历程6
1.3.1大数据的具体发展过程6
1.3.2大数据技术的具体发展历程7
1.4大数据的发展趋势8
1.4.1大数据技术面临的挑战8
1.4.2大数据应用的发展趋势10
1.5本章小结11
第2章大数据的实施和运维流程12
2.1大数据实施和运维工程师的工作职责12
2.1.1大数据职位体系12
2.1.2大数据实施工程师的工作职责14
2.1.3大数据运维工程师的工作职责15
2.2大数据实施和运维工程师的工作能力素养要求15
2.2.1大数据实施工程师的工作能力素养要求15
2.2.2大数据运维工程师的工作能力素养要求16
2.3大数据项目实施的工作流程18
2.3.1大数据项目规划阶段18
2.3.2大数据项目数据治理阶段19
2.3.3大数据项目设计阶段20
2.3.4大数据项目数据应用阶段21
2.3.5大数据项目迭代实施与应用推广阶段22
2.4大数据运维的日常工作23
2.4.1应急处置23
2.4.2故障报告24
2.4.3故障检查24
2.4.4故障诊断25
2.4.5故障测试与修复25
2.5本章小结26
第3章大数据的应用场景与案例27
3.1大数据平台架构的典型行业应用场景27
3.1.1医疗行业的应用27
3.1.2金融行业的应用28
3.1.3零售行业的应用29
3.1.4地产行业的应用29
3.1.5农业的应用30
3.1.6政务和智慧城市的应用30
3.1.7教育行业的应用30
3.1.8环境行业的应用30
3.2大数据平台架构的典型企业应用场景30
3.2.1舆情分析31
3.2.2商业智能31
3.3Hadoop生态圈中行业应用的典型实战案例32
3.3.1电信行业――中国移动基于Hadoop的大数据应用32
3.3.2金融行业――VISA公司的Hadoop应用案例33
3.3.3电商行业――eBay网站的Hadoop应用案例33
3.4Hadoop生态圈中企业应用的典型实战案例33
3.4.1新华三大数据集成平台在大地影院的应用案例背景33
3.4.2大地的应用案例的用户痛点分析34
3.4.3大地的应用案例的项目需求34
3.4.4大地的应用案例的数据构成34
3.4.5大地的应用案例的技术方案设计与实现34
3.4.6大地的应用案例系统核心组件(H3C数据集成组件)简介36
3.4.7大地的应用案例的系统优势及成效36
3.5本章小结36
第二部分大数据平台高可用(HA)集群部署
第4章Hadoop集群基础环境的配置38
4.1Hadoop集群概述38
4.1.1Hadoop集群的核心组件38
4.1.2Hadoop集群的网络拓扑结构40
4.2平台系统的环境设置41
4.2.1Linux系统环境配置41
4.2.2创建hadoop用户43
4.3Linux防火墙43
4.3.1Linux防火墙的种类与特点44
4.3.2Linux防火墙管理45
4.4SELinux47
4.4.1SELinux简介47
4.4.2SELinux的功能47
4.4.3SELinux的配置47
4.4.4关闭集群中的SELinux47
4.5配置集群主机之间时钟同步48
4.5.1直接同步48
4.5.2平滑同步49
4.6SSH无密码登录50
4.6.1生成SSH密钥50
4.6.2交换SSH密钥51
4.6.3验证SSH无密码登录52
4.7Java环境变量配置52
4.7.1JDK功能简介52
4.7.2下载JDK安装包53
4.7.3JDK的安装与环境变量配置53
4.8Hadoop的安装与配置54
4.8.1获取Hadoop安装包54
4.8.2安装Hadoop软件54
4.9本章小结55
第5章HadoopHA集群的配置56
5.1HadoopHA集群的特点56
5.2HadoopHA集群的实现原理57
5.2.1HDFSHA的实现原理57
5.2.2YARNHA的实现原理58
5.3ZooKeeper的特点58
5.3.1ZooKeeper的功能原理58
5.3.2ZooKeeper集群节点组成59
5.3.3ZooKeeper的同步机制60
5.3.4ZooKeeper的选举机制60
5.4ZooKeeperHA集群61
5.4.1在master节点上安装部署ZooKeeper61
5.4.2在master节点上配置ZooKeeper文件参数61
5.4.3分发ZooKeeper给slave1节点和slave2节点62
5.5HadoopHA集群的文件参数64
5.5.1在master节点上配置HadoopHA集群的文件参数64
5.5.2分发hadoop相关文件给slave1节点和slave2节点68
5.6JournalNode服务69
5.6.1JournalNode服务的原理69
5.6.2启动JournalNode服务70
5.7本章小结70
第6章HadoopHA集群的启动71
6.1HDFS的格式化71
6.1.1activeNameNode的格式化和启动71
6.1.2standbyNameNode的格式化和启动72
6.1.3格式化ZKFC73
6.2HadoopHA集群的启动流程73
6.2.1启动HDFS73
6.2.2启动YARN74
6.2.3启动MapReduce的历史服务器75
6.3启动后验证75
6.3.1查看进程75
6.3.2查看端口76
6.3.3运行测试77
6.4HadoopHA集群的主备切换78
6.4.1HadoopHA集群的切换机制78
6.4.2手动切换测试79
6.4.3自动切换测试79
6.5本章小结81
第三部分大数据组件的维护
第7章HBase组件的维护84
7.1NoSQL与传统RDBMS的差异84
7.1.1传统RDBMS及其应用场景84
7.1.2NoSQL简介85
7.2HBase组件的原理86
7.2.1HBase简介86
7.2.2HBase的体系结构86
7.3HBase的分布式部署87
7.3.1HBase集群环境准备87
7.3.2HBase的分布式安装88
7.4HBase库/表管理90
7.4.1HBase库管理90
7.4.2HBase表管理91
7.5HBase数据操作93
7.5.1基础操作93
7.5.2模糊查询94
7.5.3批量导入/导出95
7.6HBase错误恢复97
7.7退出HBase库98
7.8卸载HBase库98
7.9本章小结98
第8章Hive组件的维护99
8.1Hive的架构99
8.1.1Hive简介99
8.1.2Hive的数据类型100
8.2分布式部署Hive101
8.2.1环境需求101
8.2.2MySQL的安装与启动102
8.2.3配置Hive参数103
8.2.4BeelineCLI远程访问Hive105
8.3Hive库操作106
8.4Hive表操作107
8.4.1创建表107
8.4.2查看与修改表108
8.4.3删除表和退出Hive108
8.5Hive数据操作109
8.5.1数据导入109
8.5.2查询110
8.6Hive宕机恢复111
8.6.1数据备份111
8.6.2基于HDFS的数据恢复112
8.6.3基于MySQL元数据生成表结构112
8.7退出和卸载Hive组件115
8.7.1退出Hive115
8.7.2卸载Hive115
8.8本章小结115
第9章ZooKeeper组件的维护116
9.1ZooKeeper基础116
9.1.1ZooKeeper简介116
9.1.2ZooKeeper中的重要概念117
9.2ZooKeeper的功能及其优点和局限性117
9.2.1ZooKeeper的功能117
9.2.2ZooKeeper的优点118
9.2.3ZooKeeper的局限性118
9.3ZooKeeper的架构118
9.4ZooKeeper仲裁模式119
9.5配置ZooKeeper120
9.6配置ZooKeeper集群120
9.6.1集群环境准备120
9.6.2ZooKeeper集群的安装121
9.7Zookeeper集群的决策选举122
9.8ZooKeeper组件管理123
9.8.1JMX管理框架123
9.8.2ZooKeeperShell操作125
9.9本章小结127
第10章ETL组件的维护128
10.1Sqoop概述与架构128
10.1.1Sqoop概述128
10.1.2Sqoop的架构129
10.2Flume概述与架构130
10.2.1Flume概述130
10.2.2Flume的架构130
10.3Kafka概述与架构131
10.3.1Kafka概述131
10.3.2Kafka的架构132
10.4Sqoop导入数据133
10.5Sqoop导出数据134
10.6修改控制Sqoop组件的参数134
10.7Flume组件代理配置136
10.8Flume组件的数据获取137
10.9Flume组件管理137
10.10Kafka组件的部署138
10.11Kafka组件的验证部署139
10.12Kafka组件的数据处理140
10.13本章小结141
第11章Spark组件的维护142
11.1Spark概述与架构142
11.1.1Spark概述142
11.1.2Spark的架构144
11.2Spark的工作原理146
11.3Scala的安装部署148
11.3.1Scala简介148
11.3.2Scala的安装148
11.4安装Spark149
11.4.1Spark模式介绍149
11.4.2Spark的安装部署151
11.5修改Spark参数154
11.5.1Spark属性154
11.5.2环境变量155
11.5.3Spark日志156
11.5.4覆盖配置目录156
11.6SparkShell编程156
11.6.1SparkShell概述156
11.6.2SparkShell操作156
11.7Spark的基本管理158
11.8本章小结160
第四部分大数据平台优化
第12章Linux系统优化162
12.1Linux系统优化工具162
12.1.1free命令162
12.1.2top命令163
12.2优化Linux系统的内存164
12.2.1将hadoop用户添加到sudo组中164
12.2.2避免使用Swap分区164
12.2.3脏页配置优化165
12.3优化Linux系统网络167
12.3.1关闭Linux防火墙167
12.3.2禁用IPv6167
12.3.3修改somaxconn参数167
12.3.4Socket读/写缓冲区的调优168
12.3.5iperf网络测试工具169
12.4优化Linux系统磁盘169
12.4.1I/O调度器的选择169
12.4.2禁止记录访问时间戳171
12.5优化Linux文件系统172
12.5.1增大可打开文件描述符的数目172
12.5.2关闭THP172
12.5.3关闭SELinux173
12.6优化Linux系统预读缓冲区173
12.7本章小结174
第13章HDFS配置优化175
13.1HDFS概述175
13.1.1HDFS写数据流程176
13.1.2HDFS读数据流程176
13.2存储优化176
13.2.1合理的副本系数177
13.2.2合理的数据块大小178
13.3磁盘I/O优化179
13.3.1多数据存储目录179
13.3.2开启HDFS的短路本地读配置183
13.4节点通信优化183
13.4.1延迟blockreport次数183
13.4.2增大DataNode文件并发传输的大小184
13.4.3增大NameNode工作线程池的大小184
13.4.4增加DataNode连接NameNode的RPC请求的线程数量185
13.4.5调整DataNode用于平衡操作的带宽185
13.5其他常见的优化项186
13.5.1避免读取“过时”的DataNode186
13.5.2避免写入失效的DataNode186
13.5.3为MapReduce任务保留一些硬盘资源187
13.6本章小结187
第14章MapReduce配置优化188
14.1MapReduce概述188
14.2Map阶段的优化190
14.2.1降低溢出(spill)的次数190
14.2.2在MapTask结束前对spill文件进行合并191
14.2.3减少合并写入磁盘文件的数据量192
14.2.4控制Map中间结果是否使用压缩192
14.2.5选择Map中间结果的压缩算法193
14.3Reduce阶段的优化193
14.3.1ReduceTask的数量193
14.3.2ReduceI/O的相关参数195
14.3.3ReduceShuffle阶段并行传输数据的数量196
14.3.4tasktracker并发执行的Reduce数196
14.3.5可并发处理来自tasktracker的RPC请求数197
14.4本章小结197
第15章Spark配置优化198
15.1优化SparkStreaming配置198
15.1.1SparkStreaming简介198
15.1.2Spark参数的配置方式199
15.1.3Spark常用的优化参数202
15.2优化Spark读取Kafka202
15.2.1Spark参数设置202
15.2.2Kafka参数设置203
15.3优化读取Flume205
15.3.1Flume参数设置205
15.3.2接收端参数设置206
15.3.3Spark读取Flume206
15.4优化Spark写入HDFS208
15.4.1SparkShell读取并写入HDFS208
15.4.2显示调用HadoopAPI写入HDFS208
15.4.3SparkStreaming实时监控HDFS209
15.5优化SparkScala代码210
15.5.1Scala编程技巧210
15.5.2Scala数据优化211
15.6本章小结212
第五部分大数据平台的诊断与处理
第16章Hadoop及生态圈组件负载均衡的诊断与处理214
16.1HDFS磁盘负载不均衡问题及解决方案214
16.1.1问题概述214
16.1.2磁盘负载不均衡的原因与影响215
16.1.3HDFS磁盘负载不均衡的解决方案215
16.2MapReduce负载不均衡问题215
16.2.1问题概述215
16.2.2MapReduce的原理分析216
16.2.3MapReduce负载不均衡的解决方案216
16.3Spark负载不均衡问题216
16.3.1问题概述216
16.3.2Spark负载不均衡的危害217
16.3.3Spark负载不均衡的原因217
16.3.4问题发现与定位217
16.3.5Spark负载不均衡的解决方案218
16.3.6自定义Partitioner219
16.3.7Reduce端Join转化为Map端Join219
16.4HBase负载不均衡问题220
16.4.1问题概述220
16.4.2HBase负载不均衡的原因及解决方案220
16.4.3性能指标221
16.5Hive数据不均衡问题222
16.5.1问题概述222
16.5.2Hive数据不均衡的原因及解决方案223
16.5.3Hive的典型业务场景223
16.6本章小结224
第17章集群节点故障的诊断与处理225
17.1使用集群日志对节点故障进行诊断225
17.1.1Hadoop集群中的日志文件226
17.1.2日志主要结构解析226
17.1.3日志级别分析227
17.2使用集群告警信息诊断节点故障227
17.2.1集群告警信息监控227
17.2.2集群节点主机告警信息228
17.3Ganglia大数据集群节点监控229
17.4处理集群节点故障230
17.4.1集群节点硬件异常230
17.4.2集群节点组件及系统异常231
17.5本章小结231
第18章集群组件服务故障的诊断与处理232
18.1使用集群日志诊断组件服务故障问题232
18.1.1大数据集群常见故障问题232
18.1.2集群中各组件日志解析232
18.2使用集群告警信息诊断组件服务故障问题234
18.3制订集群告警信息诊断组件服务故障问题的解决方案236
18.3.1Nagios简介236
18.3.2Nagios的工作原理236
18.3.3Nagios的功能与用途236
18.3.4Nagios的监测模式237
18.4处理集群告警信息诊断组件服务故障问题238
18.4.1Hadoop常见故障问题分析238
18.4.2Nagios配置监控Hadoop日志239
18.5本章小结240
第六部分大数据平台项目综合案例
第19章数据仓库运维项目实战242
19.1项目背景和流程242
19.1.1项目背景242
19.1.2项目流程243
19.2数据的说明、导入及清洗和预处理244
19.2.1数据说明244
19.2.2数据导入245
19.2.3清洗和预处理246
19.3Hive建仓248
19.3.1数据仓库的分层设计248
19.3.2Hive数据入仓249
19.3.3业务调用252
19.4本章小结253
第20章金融行业运维项目实战254
20.1项目背景和流程254
20.1.1项目背景254
20.1.2项目流程255
20.2数据说明及清洗255
20.2.1数据说明255
20.2.2数据清洗256
20.3数据分析258
20.3.1借款金额分布258
20.3.2借款等级分布258
20.3.3借款等级与借款金额的关联关系259
20.3.4借款金额与工作年限、年收入的关联关系259
20.3.5借款金额与房屋所有权状态的关联关系260
20.4数据可视化260
20.5综合分析264
20.6本章小结264
第21章典型大数据平台监控运维项目实战265
21.1实验背景和流程265
21.1.1实验背景265
21.1.2实验流程266
21.2数据说明及预处理267
21.2.1数据说明267
21.2.2数据预处理267
21.3安装Ganglia269
21.3.1安装Ganglia所需的依赖269
21.3.2监控端安装Gmeta、Gmond、Gweb、Nginx、Php270
21.3.3被监控端安装Gmond274
21.4开启Ganglia274
21.4.1修改Ganglia-monitor的配置文件274
21.4.2主节点配置275
21.4.3修改Hadoop的配置文件275
21.4.4重启所有服务276
21.4.5访问页面查看各机器的节点信息276
21.5进行上传操作277
21.6进行查询操作278
21.7Ganglia监控结果279
21.7.1基本指标279
21.7.2上传操作前后集群状态的变化279
21.7.3查询操作前后集群状态的变化280
21.8本章小结281
×
Close
添加到书单
加载中...
点此新建书单
×
Close
新建书单
标题:
简介:
蜀ICP备2024047804号
Copyright 版权所有 © jvwen.com 聚文网