您好,欢迎来到聚文网。
登录
免费注册
网站首页
|
搜索
热搜:
磁力片
|
漫画
|
购物车
0
我的订单
商品分类
首页
幼儿
文学
社科
教辅
生活
销量榜
Hadoop应用开发技术详解
装帧: 平装
出版社: 机械工业出版社
作者: 刘刚
出版日期: 2014-01-01
商品条码: 9787111452447
版次: 1
开本: 其他
页数: 408
出版年份: 2014
定价:
¥79
销售价:
登录后查看价格
¥{{selectedSku?.salePrice}}
库存:
{{selectedSku?.stock}}
库存充足
{{item.title}}:
{{its.name}}
加入购物车
立即购买
加入书单
收藏
精选
¥5.83
世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版
¥5.39
正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册
¥8.58
简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版
¥5.83
世界文学名著全49册中小学生青少年课外书籍文学小说批发正版
¥4.95
全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷
¥8.69
父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册
¥24.2
好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册
¥7.15
幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书
¥11.55
用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书
¥19.8
少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版
¥64
科学真好玩
¥12.7
一年级下4册·读读童谣和儿歌
¥38.4
原生态新生代(传统木版年画的当代传承国际研讨会论文集)
¥11.14
法国经典中篇小说
¥11.32
上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)
¥21.56
猫的摇篮(精)
¥30.72
幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书
¥24.94
旧时风物(精)
¥12.04
三希堂三帖/墨林珍赏
¥6.88
寒山子庞居士诗帖/墨林珍赏
¥6.88
苕溪帖/墨林珍赏
¥6.88
楷书王维诗卷/墨林珍赏
¥9.46
兰亭序/墨林珍赏
¥7.74
祭侄文稿/墨林珍赏
¥7.74
蜀素帖/墨林珍赏
¥12.04
真草千字文/墨林珍赏
¥114.4
进宴仪轨(精)/中国古代舞乐域外图书
¥24.94
舞蹈音乐的基础理论与应用
编辑推荐
资历Hadoop技术专家撰写,从开发者角度对Hadoop分布式文件系统、Hadoop文件I/O、Hive、HBase、Mahout,以及MapReduce的工作原理、编程方法和不错应用进行系统深入的讲解
内容细致,包含大量用于实际生产环境中的案例,实战性强
内容简介
全书一共12章。靠前~2章详细地介绍了Hadoop的生态系统、关键技术以及安装和配置;第3章是MapReduce的使用入门,让读者了解整个开发过程;第4~5章详细讲解了分布式文件系统HDFS和Hadoop的文件I/O;第6章分析了MapReduce的工作原理;第7章讲解了如何利用Eclipse来编译Hadoop的源代码,以及如何对Hadoop应用进行测试和调试;第8~9章细致地讲解了MapReduce的开发方法和不错应用;靠前0~12章系统地讲解了Hive、HBase和Mahout。
作者简介
刘刚 毕业于大连理工大学,资历Hadoop技术专家,对HDFS、MapReduce、HBase、Hive、Mahout、Storm等Hadoop生态系统中的技术有比较深入的研究,在Hadoop开发和运维方面积累了丰富的经验。开源框架EasyHDFSWeb和EasyHDFSControl的作者。在我国Hadoop技术圈内很好活跃,经常在各种会议和沙龙上做技术分享,深受欢迎。曾就职于靠前优选CDN厂商蓝汛,担任Hadoop不错工程师开,现就职于高德软件。在北京大学软件所负责“核高基”的8-6课题,以及高性能企业级应用服务器的开发(PKUAS2010),精通Java语言、Java EE、EJB等Java技术。
目录
前 言
第1章Hadoop概述 / 1
1.1Hadoop起源 / 1
1.1.1Google与Hadoop模块 / 1
1.1.2为什么会有Hadoop / 1
1.1.3Hadoop版本介绍 / 2
1.2Hadoop生态系统 / 3
1.3Hadoop常用项目介绍 / 4
1.4Hadoop在国内的应用 / 6
1.5本章小结 / 7
第2章Hadoop安装 / 8
2.1Hadoop环境安装配置 / 8
2.1.1安装VMware / 8
2.1.2安装Ubuntu / 8
2.1.3安装VMware Tools / 15
2.1.4安装JDK / 15
2.2Hadoop 安装模式 / 16
2.2.1单机安装 / 17
2.2.2伪分布式安装 / 18
2.2.3分布式安装 / 20
2.3如何使用Hadoop / 27
2.3.1Hadoop的启动与停止 / 27
2.3.2Hadoop配置文件 / 28
2.4本章小结 / 28
第3章MapReduce快速入门 / 30
3.1WordCount 实例准备开发环境 / 30
3.1.1使用Eclipse创建一个Java工程 / 30
3.1.2导入Hadoop的JAR文件 / 31
3.2MapReduce代码的实现 / 32
3.2.1编写WordMapper类 / 32
3.2.2编写WordReducer类 / 33
3.2.3编写WordMain驱动类 / 34
3.3打包、部署和运行 / 35
3.3.1打包成JAR文件 / 35
3.3.2部署和运行 / 36
3.3.3测试结果 / 38
3.4本章小结 / 39
第4章Hadoop分布式文件系统详解 / 40
4.1认识HDFS / 40
4.1.1HDFS的特点 / 40
4.1.2Hadoop文件系统的接口 / 45
4.1.3HDFS的Web服务 / 46
4.2HDFS架构 / 46
4.2.1机架 / 47
4.2.2数据块 / 47
4.2.3元数据节点 / 48
4.2.4数据节点 / 50
4.2.5辅助元数据节点 / 50
4.2.6名字空间 / 52
4.2.7数据复制 / 53
4.2.8块备份原理 / 53
4.2.9机架感知 / 54
4.3Hadoop的RPC机制 / 55
4.3.1RPC的实现流程 / 56
4.3.2RPC的实体模型 / 56
4.3.3文件的读取 / 57
4.3.4文件的写入 / 58
4.3.5文件的一致模型 / 59
4.4HDFS的HA机制 / 59
4.4.1HA集群 / 59
4.4.2HA架构 / 60
4.4.3为什么会有HA机制 / 61
4.5HDFS的Federation机制 / 62
4.5.1单个NameNode的HDFS架构的局限性 / 62
4.5.2为什么引入Federation机制 / 63
4.5.3Federation架构 / 64
4.5.4多个名字空间的管理问题 / 65
4.6Hadoop文件系统的访问 / 66
4.6.1安全模式 / 66
4.6.2HDFS的Shell访问 / 67
4.6.3HDFS处理文件的命令 / 67
4.7Java API接口 / 72
4.7.1Hadoop URL读取数据 / 73
4.7.2FileSystem类 / 73
4.7.3FileStatus类 / 75
4.7.4FSDataInputStream类 / 77
4.7.5FSDataOutputStream类 / 81
4.7.6列出HDFS下所有的文件 / 83
4.7.7文件的匹配 / 84
4.7.8PathFilter对象 / 84
4.8维护HDFS / 86
4.8.1追加数据 / 86
4.8.2并行复制 / 88
4.8.3升级与回滚 / 88
4.8.4添加节点 / 90
4.8.5删除节点 / 91
4.9HDFS权限管理 / 92
4.9.1用户身份 / 92
4.9.2权限管理的原理 / 93
4.9.3设置权限的Shell命令 / 93
4.9.4超级用户 / 93
4.9.5HDFS权限配置参数 / 94
4.10本章小结 / 94
第5章Hadoop 文件 I/O 详解 / 95
5.1Hadoop文件的数据结构 / 95
5.1.1SequenceFile 存储 / 95
5.1.2MapFile存储 / 99
5.1.3SequenceFile转换为MapFile / 101
5.2HDFS数据完整性 / 103
5.2.1校验和 / 103
5.2.2数据块检测程序 / 104
5.3文件序列化 / 106
5.3.1进程间通信对序列化的要求 / 106
5.3.2Hadoop文件的序列化 / 107
5.3.3Writable接口 / 107
5.3.4WritableComparable接口 / 108
5.3.5自定义Writable接口 / 109
5.3.6序列化框架 / 113
5.3.7数据序列化系统Avro / 114
5.4Hadoop的Writable类型 / 115
5.4.1Writable类的层次结构 / 115
5.4.2Text类型 / 116
5.4.3NullWritable类型 / 117
5.4.4ObjectWritable类型 / 117
5.4.5GenericWritable类型 / 117
5.5文件压缩 / 117
5.5.1Hadoop支持的压缩格式 / 118
5.5.2Hadoop中的编码器和解码器 / 118
5.5.3本地库 / 121
5.5.4可分割压缩 LZO / 122
5.5.5压缩文件性能比较 / 122
5.5.6Snappy压缩 / 124
5.5.7gzip、LZO和Snappy比较 / 124
5.6本章小结 / 125
第6章MapReduce工作原理 / 126
6.1MapReduce的函数式编程概念 / 126
6.1.1列表处理 / 126
6.1.2Mapping数据列表 / 127
6.1.3Reducing数据列表 / 127
6.1.4Mapper和Reducer如何工作 / 128
6.1.5应用实例:词频统计 / 129
6.2MapReduce框架结构 / 129
6.2.1MapReduce模型 / 130
6.2.2MapReduce框架组成 / 130
6.3MapReduce运行原理 / 132
6.3.1作业的提交 / 132
6.3.2作业初始化 / 134
6.3.3任务的分配 / 136
6.3.4任务的执行 / 136
6.3.5进度和状态的更新 / 136
6.3.6MapReduce的进度组成 / 137
6.3.7任务完成 / 137
6.4MapReduce容错 / 137
6.4.1任务失败 / 138
6.4.2TaskTracker失败 / 138
6.4.3JobTracker失败 / 138
6.4.4子任务失败 / 138
6.4.5任务失败反复次数的处理方法 / 139
6.5Shuffle阶段和Sort阶段 / 139
6.5.1Map端的Shuffle / 140
6.5.2Reduce端的Shuffle / 142
6.5.3Shuffle过程参数调优 / 143
6.6任务的执行 / 144
6.6.1推测执行 / 144
6.6.2任务JVM重用 / 145
6.6.3跳过坏的记录 / 145
6.6.4任务执行的环境 / 146
6.7作业调度器 / 146
6.7.1先进先出调度器 / 146
6.7.2容量调度器 / 146
6.7.3公平调度器 / 149
6.8自定义Hadoop调度器 / 153
6.8.1Hadoop调度器框架 / 153
6.8.2编写Hadoop调度器 / 155
6.9YARN介绍 / 157
6.9.1异步编程模型 / 157
6.9.2YARN支持的计算框架 / 158
6.9.3YARN架构 / 158
6.9.4YARN工作流程 / 159
6.10本章小结 / 160
第7章Eclipse插件的应用 / 161
7.1编译Hadoop源码 / 161
7.1.1下载Hadoop源码 / 161
7.1.2准备编译环境 / 161
7.1.3编译common组件 / 162
7.2Eclipse安装MapReduce插件 / 166
7.2.1查找MapReduce插件 / 166
7.2.2新建一个Hadoop location / 167
7.2.3Hadoop插件操作HDFS / 168
7.2.4运行MapReduce的驱动类 / 170
7.3MapReduce的Debug调试 / 171
7.3.1进入Debug运行模式 / 171
7.3.2Debug调试具体操作 / 172
7.4单元测试框架MRUnit / 174
7.4.1认识MRUnit框架 / 174
7.4.2准备测试案例 / 174
7.4.3Mapper单元测试 / 176
7.4.4Reducer单元测试 / 177
7.4.5MapReduce单元测试 / 178
7.5本章小结 / 179
第8章MapReduce编程开发 / 180
8.1WordCount案例分析 / 180
8.1.1MapReduce工作流程 / 180
8.1.2WordCount的Map过程 / 181
8.1.3WordCount的Reduce过程 / 182
8.1.4每个过程产生的结果 / 182
8.1.5Mapper抽象类 / 184
8.1.6Reducer抽象类 / 186
8.1.7MapReduce驱动 / 188
8.1.8MapReduce最小驱动 / 189
8.2输入格式 / 193
8.2.1InputFormat接口 / 193
8.2.2InputSplit类 / 195
8.2.3RecordReader类 / 197
8.2.4应用实例:随机生成100个小数并求最大值 / 198
8.3输出格式 / 205
8.3.1OutputFormat接口 / 205
8.3.2RecordWriter类 / 206
8.3.3应用实例:把首字母相同的单词放到一个文件里 / 206
8.4压缩格式 / 211
8.4.1如何在MapReduce中使用压缩 / 211
8.4.2Map作业输出结果的压缩 / 212
8.5MapReduce优化 / 212
8.5.1Combiner类 / 212
8.5.2Partitioner类 / 213
8.5.3分布式缓存 / 217
8.6辅助类 / 218
8.6.1读取Hadoop配置文件 / 218
8.6.2设置Hadoop的配置文件属性 / 219
8.6.3GenericOptionsParser选项 / 220
8.7Streaming接口 / 221
8.7.1Streaming工作原理 / 221
8.7.2Streaming编程接口参数 / 221
8.7.3作业配置属性 / 222
8.7.4应用实例:抓取网页的标题 / 223
8.8本章小结 / 225
第9章MapReduce 高级应用 / 226
9.1计数器 / 226
9.1.1默认计数器 / 226
9.1.2自定义计数器 / 229
9.1.3获取计数器 / 231
9.2MapReduce二次排序 / 232
9.2.1二次排序原理 / 232
9.2.2二次排序的算法流程 / 233
9.2.3代码实现 / 235
9.3MapReduce中的Join算法 / 240
9.3.1Reduce端Join / 240
9.3.2Map端Join / 242
9.3.3半连接Semi Join / 244
9.4MapReduce从MySQL读写数据 / 244
9.4.1读数据 / 245
9.4.2写数据 / 248
9.5Hadoop系统调优 / 248
9.5.1小文件优化 / 249
9.5.2Map和Reduce个数设置 / 249
9.6本章小结 / 250
第10章数据仓库工具Hive / 251
10.1认识Hive / 251
10.1.1Hive工作原理 / 251
10.1.2Hive数据类型 / 252
10.1.3Hive的特点 / 253
10.1.4Hive下载与安装 / 255
10.2Hive架构 / 256
10.2.1Hive用户接口 / 257
10.2.2Hive元数据库 / 259
10.2.3Hive的数据存储 / 262
10.2.4Hive解释器 / 263
10.3Hive 文件格式 / 264
10.3.1TextFile格式 / 265
10.3.2SequenceFile 格式 / 265
10.3.3RCFile文件格式 / 265
10.3.4自定义文件格式 / 269
10.4Hive操作 / 270
10.4.1表操作 / 270
10.4.2视图操作 / 278
10.4.3索引操作 / 280
10.4.4分区操作 / 283
10.4.5桶操作 / 289
10.5Hive复合类型 / 290
10.5.1Struct类型 / 291
10.5.2Array类型 / 292
10.5.3Map类型 / 293
10.6Hive的JOIN详解 / 294
10.6.1JOIN操作语法 / 294
10.6.2JOIN原理 / 294
10.6.3外部JOIN / 295
10.6.4Map端JOIN / 296
10.6.5JOIN中处理NULL值的语义区别 / 296
10.7Hive 优化策略 / 297
10.7.1列裁剪 / 297
10.7.2Map Join操作 / 297
10.7.3Group By操作 / 298
10.7.4合并小文件 / 298
10.8Hive内置操作符与函数 / 298
10.8.1字符串函数 / 299
10.8.2集合统计函数 / 299
10.8.3复合类型操作 / 301
10.9Hive用户自定义函数接口 / 302
10.9.1用户自定义函数UDF / 302
10.9.2用户自定义聚合函数UDAF / 304
10.10Hive的权限控制 / 306
10.10.1角色的创建和删除 / 307
10.10.2角色的授权和撤销 / 307
10.10.3超级管理员权限 / 309
10.11应用实例:使用 JDBC开发Hive 程序 / 311
10.11.1准备测试数据 / 311
10.11.2代码实现 / 311
10.12本章小结 / 313
第11章开源数据库HBase / 314
11.1认识HBase / 314
11.1.1HBase的特点 / 314
11.1.2HBase访问接口 / 314
11.1.3HBase存储结构 / 315
11.1.4HBase存储格式 / 317
11.2HBase设计 / 319
11.2.1逻辑视图 / 320
11.2.2框架结构及流程 / 321
11.2.3Table和Region的关系 / 323
11.2.4-ROOT-表和.META.表 / 323
11.3关键算法和流程 / 324
11.3.1Region定位 / 324
11.3.2读写过程 / 325
11.3.3Region分配 / 327
11.3.4Region Server上线和下线 / 327
11.3.5Master上线和下线 / 327
11.4HBase安装 / 328
11.4.1HBase单机安装 / 328
11.4.2HBase分布式安装 / 330
11.5HBase的Shell操作 / 334
11.5.1一般操作 / 334
11.5.2DDL操作 / 335
11.5.3DML操作 / 337
11.5.4HBase Shell脚本 / 339
11.6HBase客户端 / 340
11.6.1Java API交互 / 340
11.6.2MapReduce操作HBase / 344
11.6.3向HBase中写入数据 / 348
11.6.4读取HBase中的数据 / 350
11.6.5Avro、REST和Thrift接口 / 352
11.7本章小结 / 353
第12章Mahout算法 / 354
12.1Mahout的使用 / 354
12.1.1安装Mahout / 354
12.1.2运行一个Mahout案例 / 354
12.2Mahout数据表示 / 356
12.2.1偏好Perference类 / 356
12.2.2数据模型DataModel类 / 357
12.2.3Mahout 链接MySQL数据库 / 358
12.3认识Taste框架 / 360
12.4Mahout推荐器 / 361
12.4.1基于用户的推荐器 / 361
12.4.2基于项目的推荐器 / 362
12.4.3Slope One 推荐策略 / 363
12.5推荐系统 / 365
12.5.1个性化推荐 / 365
12.5.2商品推荐系统案例 / 366
12.6本章小结 / 370
附录AHive内置操作符与函数 / 371
附录BHBase 默认配置解释 / 392
附录CHadoop三个配置文件的参数含义说明 / 398
×
Close
添加到书单
加载中...
点此新建书单
×
Close
新建书单
标题:
简介:
蜀ICP备2024047804号
Copyright 版权所有 © jvwen.com 聚文网