您好,欢迎来到聚文网。
登录
免费注册
网站首页
|
搜索
热搜:
磁力片
|
漫画
|
购物车
0
我的订单
商品分类
首页
幼儿
文学
社科
教辅
生活
销量榜
Hadoop大数据处理技术基础与实践 第2版 微课版
字数: 444000
装帧: 平装
出版社: 人民邮电出版社
出版日期: 2020-09-01
商品条码: 9787115545688
版次: 2
开本: 16开
页数: 264
出版年份: 2020
定价:
¥56
销售价:
登录后查看价格
¥{{selectedSku?.salePrice}}
库存:
{{selectedSku?.stock}}
库存充足
{{item.title}}:
{{its.name}}
加入购物车
立即购买
加入书单
收藏
精选
¥5.83
世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版
¥5.39
正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册
¥8.58
简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版
¥5.83
世界文学名著全49册中小学生青少年课外书籍文学小说批发正版
¥4.95
全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷
¥8.69
父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册
¥24.2
好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册
¥7.15
幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书
¥11.55
用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书
¥19.8
少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版
¥64
科学真好玩
¥12.7
一年级下4册·读读童谣和儿歌
¥38.4
原生态新生代(传统木版年画的当代传承国际研讨会论文集)
¥11.14
法国经典中篇小说
¥11.32
上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)
¥21.56
猫的摇篮(精)
¥30.72
幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书
¥24.94
旧时风物(精)
¥12.04
三希堂三帖/墨林珍赏
¥6.88
寒山子庞居士诗帖/墨林珍赏
¥6.88
苕溪帖/墨林珍赏
¥6.88
楷书王维诗卷/墨林珍赏
¥9.46
兰亭序/墨林珍赏
¥7.74
祭侄文稿/墨林珍赏
¥7.74
蜀素帖/墨林珍赏
¥12.04
真草千字文/墨林珍赏
¥114.4
进宴仪轨(精)/中国古代舞乐域外图书
¥24.94
舞蹈音乐的基础理论与应用
编辑推荐
1.28个微课视频,扫码同步学,重点难点轻松掌握 2.每章都附有习题,以及实践性较强的实训,巩固所学知识 3.侧重应用能力的培养,对学生起到引导作用 4.配备了PPT课件、源代码、习题答案、微课等丰富的教学资源
内容简介
全书共有12章,从Hadoop概述开始,介绍了Hadoop的安装与配置管理,并对Hadoop的生态体系架构进行了介绍,包括HDFS技术、YARN技术、MapReduce技术、Hadoop I/O操作、海量数据库技术HBase、ZooKeeper技术、分布式数据仓库技术Hive、分布式数据分析工具Pig,以及数据迁移工具Sqoop,最后对大数据实时处理技术做了简单介绍,旨在让读者了解当前其他的大数据处理技术。本书除了介绍Hadoop的理论外,还介绍了如何使用各组件,但因为只是介绍基础的使用,没有涉及底层的高级内容,所以本书只是起引导作用,旨在让读者了解Hadoop并能够使用Hadoop的基本功能,并不是学习Hadoop的接近手册。本书适合作为高等院校、高等职业院校大数据、物联网、云计算及其他计算机相关专业的教材,也可供云计算与大数据技术相关的培训班使用。
作者简介
安俊秀,教授,成都信息工程大学教师。2004年7月从西安交通大学计算机科学与技术专业毕业,获工学硕士学位。中国计算机学会高级会员;中国电子学会高级会员;成都市科技攻关计划评审专家;成都军区项目评审专家;汕尾市科技顾问团首席顾问。
目录
第1章
Hadoop概述1
1.1Hadoop简介1
1.2Hadoop体系架构3
1.3Hadoop与分布式开发4
1.4Hadoop行业应用案例分析6
1.4.1Hadoop在门户网站的应用6
1.4.2Hadoop在搜索引擎中的应用6
1.4.3Hadoop在电商平台中的应用7
习题7
第2章
Hadoop的安装与配置管理8
2.1实验准备8
2.2配置一个单节点环境9
2.2.1运行一个虚拟环境CentOS9
2.2.2配置网络11
2.2.3创建新的用户组和用户14
2.2.4上传文件到CentOS并配置Java和Hadoop环境15
2.2.5修改Hadoop2.7配置文件18
2.2.6修改CentOS主机名21
2.2.7绑定hostname与IP21
2.2.8关闭防火墙22
2.3节点之间的免密码通信22
2.3.1什么是SSH22
2.3.2复制虚拟机节点23
2.3.3配置SSH免密码登录24
2.4Hadoop的启动和测试26
2.4.1格式化文件系统26
2.4.2启动HDFS27
2.4.3启动YARN28
2.4.4启动JobHistoryServer28
2.4.5集群验证29
2.4.6需要了解的默认配置30
2.5动态管理节点31
2.5.1动态增加和删除DataNode31
2.5.2动态修改TaskTracker32
习题33
第3章
HDFS技术35
3.1HDFS的特点35
3.2HDFS架构36
3.2.1数据块36
3.2.2NameNode与DataNode38
3.2.3辅助NameNode39
3.2.4安全模式41
3.2.5负载均衡41
3.2.6垃圾回收42
3.3HDFSShell命令42
3.3.1文件处理命令43
3.3.2dfsadmin命令48
3.3.3NameNode命令49
3.3.4fsck命令50
3.3.5pipes命令50
3.3.6job命令51
3.4HDFS中JavaAPI的使用52
3.4.1上传文件52
3.4.2新建文件54
3.4.3查看文件详细信息55
3.4.4下载文件56
3.5RPC通信57
3.5.1反射机制57
3.5.2代理模式与动态代理60
3.5.3HadoopRPC机制与源码分析62
习题66
第4章
YARN技术67
4.1YARN概述67
4.1.1YARN产生背景——MRv1的局限性67
4.1.2YARN的通信协议68
4.2YARN基本框架69
4.2.1RM进程69
4.2.2NM进程70
4.2.3AM进程70
4.2.4YARN的资源表示模型Container70
4.3YARN资源调度器71
4.3.1FIFO调度器71
4.3.2Capacity调度器71
4.3.3Fair调度器72
4.4YARN的工作流程72
4.5YARN的实战案例74
习题77
第5章
MapReduce技术78
5.1什么是MapReduce78
5.2MapReduce编程模型79
5.2.1MapReduce简介79
5.2.2MapReduce简单模型79
5.2.3MapReduce复杂模型80
5.2.4MapReduce编程实例——WordCount81
5.3MapReduce数据流82
5.3.1分片并格式化原始数据(InputFormat)82
5.3.2Map过程84
5.3.3Shuffle过程84
5.3.4Reduce过程89
5.3.5按指定格式写入文件(OutputFormat)89
5.4MapReduce任务流程90
5.5MapReduce的Streaming和Pipe91
5.5.1HadoopStreaming91
5.5.2HadoopPipe92
5.6MapReduce性能调优94
5.7MapReduce实战96
5.7.1快速入门96
5.7.2简单使用Eclipse插件107
习题115
第6章
HadoopI/O操作116
6.1HDFS数据完整性116
6.1.1校验和116
6.1.2运行后台进程来检测数据块117
6.2基于文件的数据结构118
6.2.1SequenceFile的存储118
6.2.2MapFile的存储122
6.2.3SequenceFile转换为MapFile124
6.3压缩125
6.3.1认识压缩126
6.3.2Codec126
6.3.3本地库128
6.3.4如何选择压缩格式129
6.4序列化130
6.4.1认识序列化130
6.4.2Writable接口131
6.4.3WritableComparable接口132
6.4.4HadoopWritable基本类型133
6.4.5自定义Writable类型138
习题139
第7章
海量数据库技术HBase140
7.1初识HBase140
7.2HBase表视图141
7.2.1概念视图141
7.2.2物理视图142
7.3HBase物理存储模型143
7.4安装HBase149
7.4.1HBase单节点安装149
7.4.2HBase伪分布式安装151
7.4.3HBase接近分布式安装152
7.5HBaseShell154
7.5.1HBaseShell的命令154
7.5.2general操作156
7.5.3DDL操作157
7.5.4DML操作159
习题161
第8章
ZooKeeper技术162
8.1分布式协调技术及其实现者162
8.1.1分布式协调技术162
8.1.2实现者163
8.2ZooKeeper基本架构163
8.2.1角色163
8.2.2选举机制164
8.3ZooKeeper数据模型164
8.3.1Znode164
8.3.2ZooKeeper中的时间165
8.3.3ZooKeeper节点属性166
8.3.4watch触发器166
8.4ZooKeeper集群安装168
8.5ZooKeeper的主要Shell操作169
8.6典型运用场景171
8.6.1数据发布与订阅171
8.6.2统一命名服务172
8.6.3分布通知/协调172
习题173
第9章
分布式数据仓库技术Hive174
9.1Hive出现的原因174
9.2Hive服务的组成174
9.3Hive的安装176
9.3.1Hive基本安装176
9.3.2MySQL的安装176
9.3.3Hive的配置177
9.4HiveShell180
9.5HQL181
9.5.1认识HQL181
9.5.2Hive管理数据方式182
9.5.3Hive表的DDL操作183
9.5.4Hive表的DML操作192
习题196
第10章
分布式数据分析工具Pig197
10.1Pig的安装和配置197
10.2Pig的基本概念198
10.3Pig的保留关键字199
10.4使用Pig201
10.4.1Pig命令行选项201
10.4.2Pig的运行模式202
10.4.3Pig相关Shell命令202
10.4.4Pig程序运行方式206
10.4.5Pig的输入与输出208
10.5Pig模式(Schemas)210
10.6Pig相关函数217
习题221
第11章
Hadoop与RDBMS数据迁移工具Sqoop222
11.1Sqoop简介及基本安装222
11.2Sqoop的配置223
11.3Sqoop的相关功能224
11.3.1Sqoop的工具命令224
11.3.2Sqoop与MySQL225
11.3.3sqoop-import操作226
11.3.4sqoop-import-all-tables操作231
11.3.5sqoop-export操作232
11.3.6sqoop-list-databases和sqoop-list-tables操作234
11.4Hive、Pig和Sqoop三者之间的关系235
习题236
第12章
大数据实时处理技术237
12.1Storm大数据实时处理技术237
12.1.1ApacheStorm的组成结构237
12.1.2数据流与分组238
12.1.3Storm-Yarn产生的背景240
12.1.4Storm-Yarn的功能240
12.2Spark大数据实时处理技术241
12.2.1ApacheSpark架构241
12.2.2ApacheSpark的扩展功能243
12.3Storm与Spark的异同245
习题246
附录A使用Eclipse提交Hadoop任务时相关错误的修复247
附录B常用Pig内置函数249
×
Close
添加到书单
加载中...
点此新建书单
×
Close
新建书单
标题:
简介:
蜀ICP备2024047804号
Copyright 版权所有 © jvwen.com 聚文网