您好,欢迎来到聚文网。
登录
免费注册
网站首页
|
搜索
热搜:
磁力片
|
漫画
|
购物车
0
我的订单
商品分类
首页
幼儿
文学
社科
教辅
生活
销量榜
Hadoop硬实战
字数: 750.00千字
装帧: 平装
出版社: 电子工业出版社
作者: (美)亚历克斯·霍姆斯(Alex Holmes) 著;梁李印,宁青,杨卓荦 译
出版日期: 2015-01-01
商品条码: 9787121250729
版次: 1
开本: 16开
页数: 511
出版年份: 2015
定价:
¥99
销售价:
登录后查看价格
¥{{selectedSku?.salePrice}}
库存:
{{selectedSku?.stock}}
库存充足
{{item.title}}:
{{its.name}}
加入购物车
立即购买
加入书单
收藏
精选
¥5.83
世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版
¥5.39
正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册
¥8.58
简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版
¥5.83
世界文学名著全49册中小学生青少年课外书籍文学小说批发正版
¥4.95
全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷
¥8.69
父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册
¥24.2
好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册
¥7.15
幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书
¥11.55
用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书
¥19.8
少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版
¥64
科学真好玩
¥12.7
一年级下4册·读读童谣和儿歌
¥38.4
原生态新生代(传统木版年画的当代传承国际研讨会论文集)
¥11.14
法国经典中篇小说
¥11.32
上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)
¥21.56
猫的摇篮(精)
¥30.72
幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书
¥24.94
旧时风物(精)
¥12.04
三希堂三帖/墨林珍赏
¥6.88
寒山子庞居士诗帖/墨林珍赏
¥6.88
苕溪帖/墨林珍赏
¥6.88
楷书王维诗卷/墨林珍赏
¥9.46
兰亭序/墨林珍赏
¥7.74
祭侄文稿/墨林珍赏
¥7.74
蜀素帖/墨林珍赏
¥12.04
真草千字文/墨林珍赏
¥114.4
进宴仪轨(精)/中国古代舞乐域外图书
¥24.94
舞蹈音乐的基础理论与应用
编辑推荐
《hadoop硬实战》适合使用hadoop进行数据存储、管理和分析的技术人员使用。
内容简介
hadoop是一个开源的mapreduce平台,设计运行在大型分布式集群环境中,为开发者进行数据存储、管理以及分析提供便利的方法。本书详细讲解了hadoop和mapreduce的基本概念,并收集了85个问题及其解决方案。在关键问题领域对基础概念和实战方法做了权衡。
作者简介
Alex Holmes是不错软件工程师,在使用Hadoop解决大数据问题上经验十分丰富。他曾在JavaOne和Jazoon做过演讲并在VeriSign负责技术指导。
目录
前言
致谢
关于本书
第1部分背景和基本原理
1跳跃中的Hadoop
1.1什么是Hadoop
1.1.1Hadoop的核心组件
1.1.2Hadoop生态圈
1.1.3物理架构
1.1.4谁在使用Hadoop
1.1.5Hadoop的局限性
1.2运行Hadoop
1.2.1下载并安装Hadoop
1.2.2Hadoop的配置
1.2.3CLI基本命令
1.2.4运行MapReduce作业
1.3本章小结
第2部分数据逻辑
2将数据导入导出Hadoop
2.1导入导出的关键要素
2.2将数据导入Hadoop
2.2.1将日志文件导入Hadoop
技术点1使用Flume将系统日志文件导入HDFS
2.2.2导入导出半结构化和二进制文件
技术点2自动复制文件到HDFS的机制
技术点3使用Oozie定期执行数据导入活动
2.2.3从数据库中拉数据
技术点4使用MapReduce将数据导入数据库
技术点5使用Sqoop从MySQL导入数据
2.2.4HBase
技术点6HBase导入HDFS
技术点7将HBase作为MapReduce的数据源
2.3将数据导出Hadoop
2.3.1将数据导入本地文件系统
技术点8自动复制HDFS中的文件
2.3.2数据库
技术点9使用Sqoop将数据导入MySQL
2.3.3Hbase
技术点10将数据从HDFS导入HBase
技术点11使用HBase作为MapReduce的数据接收器
2.4本章小结
3数据序列化——处理文本文件及其他格式的文件
3.1了解MapReduce中的输入和输出
3.1.1数据输入
3.1.2数据输出
3.2处理常见的序列化格式
3.2.1XML
技术点12MapReduce和XML
3.2.2JSON
技术点13MapReduce和JSON
3.3大数据的序列化格式
3.3.1比较SequenceFiles、ProtocolBuffers、Thrift和Avro
3.3.2SequenceFile
技术点14处理SequenceFile
3.3.3ProtocolBuffers
技术点15整合ProtocolBuffers和MapReduce
3.3.4Thrift
技术点16使用Thrift
3.3.5Avro
技术点17MapReduce的下一代数据序列化技术
3.4自定义文件格式
3.4.1输入输出格式
技术点18输入和输出格式为CSV的文件
3.4.2outputcommitting的重要性
3.5本章小结
第3部分大数据模式
4处理大数据的MapReduce模式
4.1Join
4.1.1RepartitionJoin
技术点19优化repartitionjoin
4.1.2ReplicatedJoin
4.1.3Semi—join
技术点20实现semi—join
4.1.4为你的数据挑选最优的合并策略
4.2排序
4.2.1二次排序
技术点21二次排序的实现
4.2.2整体并行排序
技术点22通过多个reducer对key进行排序
4.3抽样
技术点23蓄水池抽样(reservoir抽样)
4.4本章小结
5优化HDFS处理大数据的技术
5.1处理小文件
技术点24使用Avro存储大量小文件
5.2通过压缩提高数据存储效率
技术点25选择合适的压缩解码器
技术点26在HDFS、MapReduce、Pig和Hive中使用数据压缩
技术点27在MapReduce、Hive和Pig中处理可分割的LZOP
5.3本章小结
6诊断和优化性能问题
6.1衡量MapReduce和你的环境
6.1.1提取作业统计信息的工具
6.1.2监控
6.2确定性能问题的原因
6.2.1了解哪些因素会影响MapReduce作业的性能
6.2.2map端异常
技术点28发现输入数据中的坑
技术点29确定map端数据倾斜问题
技术点30判定map任务吞吐量
技术点31小文件
技术点32不可切割的文件
6.2.3reduce端问题
技术点33reducer任务数过大或过小
技术点34定位reduce端数据倾斜问题209
技术点35确定reduce任务是否存在整体吞吐量过低
技术点36缓慢的洗牌(shuffle)和排序
6.2.4任务的一般性能问题
技术点37作业竞争和调度器限制
技术点38使用堆转储来查找未优化的用户代码
6.2.5硬件性能问题
技术点39查找硬件的失效
技术点40CPU竞争
技术点41内存交换
技术点42磁盘健康
技术点43网络
6.3可视化
技术点44提取并可视化任务执行时间
6.4优化
6.4.1剖析MapReduce的用户代码
技术点45剖析map和reduce任务
6.4.2参数配置
6.4.3优化shuffle和sort阶段
技术点46避免reducer
技术点47过滤和投影
技术点48使用combiner
技术点49超炫的使用比较器的快速排序
6.4.4减轻倾斜
技术点50收集倾斜数据
技术点51减轻reducer阶段倾斜
6.4.5在MapReduce中优化用户的Java代码
6.4.6数据序列化
6.5本章小结
第4部分数据科学
7数据结构和算法的运用
7.1使用图进行数据建模和解决问题
7.1.1模拟图
7.1.2最短路径算法
技术点52找出两个用户间的最短距离
7.1.3friends—of—friends(FoF)
技术点53计算FoF
7.1.4PageRank
技术点54通过Web图计算PageRank
7.2Bloomfilter
技术点55在MapReduce中并行创建Bloomfilter
技术点56通过MapReduce对Bloomfilter进行semi—join
7.3本章小结
8结合R和Hadoop进行数据统计285
8.1比较R和MapReduce集成的几种方法
8.2R基础知识
8.3R和Streaming
8.3.1Streaming和map—onlyR
技术点57计算股票日平均值
8.3.2Streaming、R和完整的MapReduce
技术点58计算股票的累积均值
8.4Rhipe——将客户端R和Hadoop进行集成
技术点59使用Rhipe计算CMA
8.5RHadoop——更简单地在客户端集成R和Hadoop的技术
技术点60使用RHadoop计算CMA
8.6本章小结
9使用Mahout进行预测分析
9.1使用recommender提供产品建议
9.1.1相似性度量的可视化
9.1.2GroupLens数据集
9.1.3基于用户的recommender
9.1.4基于物品的recommender
技术点61使用基于物品的recommender进行电影评级
9.2classification
9.2.1编写一个手动naiveBayesian分类器
9.2.2可扩展的垃圾邮件侦测分类系统
技术点62使用Mahout训练和测试垃圾邮件分类器
9.2.3其他分类算法
9.3K—meansclustering
9.3.1简单介绍
9.3.2并行执行K—means
技术点63K—means处理合成的二维数据集
9.3.3K—means和文本
9.3.4其他Mahoutclustering算法
9.4本章小结
第5部分驯服大象
10深入解析Hive
10.1Hive基础
10.1.1安装
10.1.2元存储
10.1.3数据库、表、分区和存储
10.1.4数据模型
10.1.5查询语言
10.1.6交互式和非交互式Hive
10.2使用Hive进行数据分析
10.2.1序列化和反序列化
技术点64载入日志文件
10.2.2UDF、分区、分桶和压缩
技术点65编写UDF和压缩分区表
10.2.3数据合并
技术点66优化Hive合并
10.2.4分组、排序和explain
10.3本章小结
11Pig流管道
11.1Pig基础
11.1.1安装
11.1.2架构
11.1.3PigLatin
11.1.4数据类型
11.1.5操作符和函数
11.1.6交互式和非交互式的Pig
11.2使用Pig在日志数据中发现恶意行为者
11.2.1加载数据
技术点67加载Apache日志文件
11.2.2过滤和投影
技术点68通过过滤和投影减少数据处理量
11.2.3分组和聚合UDF
技术点69IP地址的分组和计数
11.2.4使用UDF进行定位
技术点70使用分布式缓存进行IP地理定位
11.2.5流
技术点71使用你的脚本合并Pig
11.2.6合并
技术点72在Pig中合并数据
11.2.7排序
技术点73元组排序
11.2.8存储数据
技术点74在SequenceFiles中存储数据
11.3使用Pig优化用户的工作流程
技术点75通过4步快速处理大数据
11.4性能
技术点76Pig优化
11.5本章小结
12Crunch及相关技术
12.1什么是Crunch
12.1.1背景和概念
12.1.2基本原理
12.1.3简单示例
12.2发现日志中最热门的URL
技术点77使用Crunch进行日志解析和基本分析
12.3合并
技术点78Crunch的repartitionjoin
12.4Cascading
12.5本章小结
13测试和调试
13.1测试
13.1.1有效的单元测试的基本要素
13.1.2MRUnit
技术点79MapReduce函数、作业和管道的单元测试
13.1.3LocalJobRunner
技术点80用LocalJobRunner进行重量级的作业测试
13.1.4集成和QA测试
13.2调试用户空间的问题
13.2.1访问任务日志
技术点81检查任务日志
13.2.2调试不可预期的输入
技术点82定位inputsplit问题
13.2.3调试JVM配置
技术点83解决任务的JVM启动参数
13.2.4高效调试的编码准则
技术点84调试和错误处理
13.3MapReduce陷阱
技术点85MapReduce反模式
13.4本章小结
附录A相关技术
附录BHadoop内置的数据导入导出工具
附录CHDFS解剖
附录D优化MapReduce合并框架
索引
×
Close
添加到书单
加载中...
点此新建书单
×
Close
新建书单
标题:
简介:
蜀ICP备2024047804号
Copyright 版权所有 © jvwen.com 聚文网