Hadoop大数据处理技术基础与实践（第2版）（微课版）--聚文网

精选

¥5.83

世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版

¥5.39

正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册

¥8.58

简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版

¥5.83

世界文学名著全49册中小学生青少年课外书籍文学小说批发正版

¥4.95

全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷

¥8.69

父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册

¥24.2

好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册

¥7.15

幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书

¥11.55

用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书

¥19.8

少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版

¥64

科学真好玩

¥12.7

一年级下4册·读读童谣和儿歌

¥38.4

原生态新生代(传统木版年画的当代传承国际研讨会论文集)

¥11.14

法国经典中篇小说

¥11.32

上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)

¥21.56

猫的摇篮(精)

¥30.72

幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书

旧时风物(精)

三希堂三帖/墨林珍赏

寒山子庞居士诗帖/墨林珍赏

苕溪帖/墨林珍赏

楷书王维诗卷/墨林珍赏

兰亭序/墨林珍赏

祭侄文稿/墨林珍赏

蜀素帖/墨林珍赏

真草千字文/墨林珍赏

进宴仪轨(精)/中国古代舞乐域外图书

舞蹈音乐的基础理论与应用

内容简介

全书共有12章，从Hadoop概述开始，介绍了Hadoop的安装与配置管理，并对Hadoop的生态体系架构进行了介绍，包括HDFS技术、YARN技术、MapReduce技术、Hadoop I/O操作、海量数据库技术HBase、ZooKeeper技术、分布式数据仓库技术Hive、分布式数据分析工具Pig，以及数据迁移工具Sqoop，最后对大数据实时处理技术做了简单介绍，旨在让读者了解当前其他的大数据处理技术。本书除了介绍Hadoop的理论外，还介绍了如何使用各组件，但因为只是介绍基础的使用，没有涉及底层的高级内容，所以本书只是起引导作用，旨在让读者了解Hadoop并能够使用Hadoop的基本功能，并不是学习Hadoop的完全手册。本书适合作为高等院校、高等职业院校大数据、物联网、云计算及其他计算机相关专业的教材，也可供云计算与大数据技术相关的培训班使用。

作者简介

安俊秀，教授，成都信息工程大学教师。2004年7月从西安交通大学计算机科学与技术专业毕业，获工学硕士学位。中国计算机学会高级会员；中国电子学会高级会员；成都市科技攻关计划评审专家；成都军区项目评审专家；汕尾市科技顾问团首席顾问。在教学上，严格要求自己，勤奋钻研、不断提升教学水平，给更多学生以帮助和爱护。于1993年毕业进入山西大学商务学院任教，2006年底调入成都信息工程大学任教。最近三年，先后承担了《Linux体系和编程》、《软件项目管理》、《工程导论》、《计算机组成原理》等本科课程；承担了《云计算与大数据》、《并行计算》、《Hadoop处理技术》等研究生课程，学校考核均为优。在科研工作方面，一直从事云计算与大数据、信息智能搜索与计算社会方面的研究工作。近三年发表论文20余篇，其中第一作者10余篇，核心期刊以上占5篇。独立完成专著1部，编著教材1部和参与编著教材1部，主编教材1部。获得国家发明专利2项（2014授权），实用新型专利授权12项。获得软件著作权13项。科研项目10项。2015年获四川省社科高水平研究团队称号。

第 1章 Hadoop概述　1 1.1　Hadoop简介　1 1.2　Hadoop体系架构　3 1.3　Hadoop与分布式开发　4 1.4　Hadoop行业应用案例分析　6 1.4.1　Hadoop在门户网站的应用　6 1.4.2　Hadoop在搜索引擎中的应用　6 1.4.3　Hadoop在电商平台中的应用　7 习题　7 第　2章 Hadoop的安装与配置管理　8 2.1　实验准备　8 2.2　配置一个单节点环境　9 2.2.1　运行一个虚拟环境CentOS　9 2.2.2　配置网络　11 2.2.3　创建新的用户组和用户　14 2.2.4　上传文件到CentOS并配置Java和　Hadoop环境　15 2.2.5　修改Hadoop 2.7配置文件　18 2.2.6　修改CentOS主机名　21 2.2.7　绑定hostname与IP　21 2.2.8　关闭防火墙　22 2.3　节点之间的免密码通信　22 2.3.1　什么是SSH　22 2.3.2　复制虚拟机节点　23 2.3.3　配置SSH免密码登录　24 2.4　Hadoop的启动和测试　26 2.4.1　格式化文件系统　26 2.4.2　启动HDFS　27 2.4.3　启动YARN　28 2.4.4　启动JobHistory Server　28 2.4.5　集群验证　29 2.4.6　需要了解的默认配置　30 2.5　动态管理节点　31 2.5.1　动态增加和删除DataNode　31 2.5.2　动态修改TaskTracker　32 习题　33 第3章 HDFS技术　35 3.1　HDFS的特点　35 3.2　HDFS架构　36 3.2.1　数据块　36 3.2.2　NameNode与DataNode　38 3.2.3　辅助NameNode　39 3.2.4　安全模式　41 3.2.5　负载均衡　41 3.2.6　垃圾回收　42 3.3　HDFS Shell命令　42 3.3.1　文件处理命令　43 3.3.2　dfsadmin命令　48 3.3.3　NameNode命令　49 3.3.4　fsck命令　50 3.3.5　pipes命令　50 3.3.6　job命令　51 3.4　HDFS中Java API的使用　52 3.4.1　上传文件　52 3.4.2　新建文件　54 3.4.3　查看文件详细信息　55 3.4.4　下载文件　56 3.5　RPC通信　57 3.5.1　反射机制　57 3.5.2　代理模式与动态代理　60 3.5.3　Hadoop RPC机制与源码分析　62 习题　66 第4章 YARN技术　67 4.1　YARN概述　67 4.1.1　YARN产生背景——MRv1的　局限性　67 4.1.2　YARN的通信协议　68 4.2　YARN基本框架　69 4.2.1　RM进程　69 4.2.2　NM进程　70 4.2.3　AM进程　70 4.2.4　YARN的资源表示模型　Container　70 4.3　YARN资源调度器　71 4.3.1　FIFO调度器　71 4.3.2　Capacity调度器　71 4.3.3　Fair调度器　72 4.4　YARN的工作流程　72 4.5　YARN的实战案例　74 习题　77 第5章 MapReduce技术　78 5.1　什么是MapReduce　78 5.2　MapReduce编程模型　79 5.2.1　MapReduce简介　79 5.2.2　MapReduce简单模型　79 5.2.3　MapReduce复杂模型　80 5.2.4　MapReduce编程实例—— 　WordCount　81 5.3　MapReduce数据流　82 5.3.1　分片并格式化原始数据　（InputFormat）　82 5.3.2　Map过程　84 5.3.3　Shuffle过程　84 5.3.4　Reduce过程　89 5.3.5　按指定格式写入文件　（OutputFormat）　89 5.4　MapReduce任务流程　90 5.5　MapReduce的Streaming和　Pipe　91 5.5.1　Hadoop Streaming　91 5.5.2　Hadoop Pipe　92 5.6　MapReduce性能调优　94 5.7　MapReduce实战　96 5.7.1　快速入门　96 5.7.2　简单使用Eclipse插件　107 习题　115 第6章 Hadoop　I/O操作　116 6.1　HDFS数据完整性　116 6.1.1　校验和　116 6.1.2　运行后台进程来检测数据块　117 6.2　基于文件的数据结构　118 6.2.1　SequenceFile的存储　118 6.2.2　MapFile的存储　122 6.2.3　SequenceFile转换为MapFile　124 6.3　压缩　125 6.3.1　认识压缩　126 6.3.2　Codec　126 6.3.3　本地库　128 6.3.4　如何选择压缩格式　129 6.4　序列化　130 6.4.1　认识序列化　130 6.4.2　Writable接口　131 6.4.3　WritableComparable接口　132 6.4.4　Hadoop Writable基本类型　133 6.4.5　自定义Writable类型　138 习题　139 第7章海量数据库技术HBase　140 7.1　初识HBase　140 7.2　HBase表视图　141 7.2.1　概念视图　141 7.2.2　物理视图　142 7.3　HBase物理存储模型　143 7.4　安装HBase　149 7.4.1　HBase单节点安装　149 7.4.2　HBase伪分布式安装　151 7.4.3　HBase完全分布式安装　152 7.5　HBase Shell　154 7.5.1　HBase Shell的命令　154 7.5.2　general操作　156 7.5.3　DDL操作　157 7.5.4　DML操作　159 习题　161 第8章 ZooKeeper技术　162 8.1　分布式协调技术及其实现者　162 8.1.1　分布式协调技术　162 8.1.2　实现者　163 8.2　ZooKeeper基本架构　163 8.2.1　角色　163 8.2.2　选举机制　164 8.3　ZooKeeper数据模型　164 8.3.1　Znode　164 8.3.2　ZooKeeper中的时间　165 8.3.3　ZooKeeper节点属性　166 8.3.4　watch触发器　166 8.4　ZooKeeper集群安装　168 8.5　ZooKeeper的主要Shell 　操作　169 8.6　典型运用场景　171 8.6.1　数据发布与订阅　171 8.6.2　统一命名服务　172 8.6.3　分布通知/协调　172 习题　173 第9章分布式数据仓库技术Hive　174 9.1　Hive出现的原因　174 9.2　Hive服务的组成　174 9.3　Hive的安装　176 9.3.1　Hive基本安装　176 9.3.2　MySQL的安装　176 9.3.3　Hive的配置　177 9.4　Hive Shell　180 9.5　HQL　181 9.5.1　认识HQL　181 9.5.2　Hive管理数据方式　182 9.5.3　Hive表的DDL操作　183 9.5.4　Hive表的DML操作　192 习题　196 第　10章分布式数据分析工具Pig　197 10.1　Pig的安装和配置　197 10.2　Pig的基本概念　198 10.3　Pig的保留关键字　199 10.4　使用Pig　201 10.4.1　Pig命令行选项　201 10.4.2　Pig的运行模式　202 10.4.3　Pig相关Shell命令　202 10.4.4　Pig程序运行方式　206 10.4.5　Pig的输入与输出　208 10.5　Pig模式（Schemas）　210 10.6　Pig相关函数　217 习题　221 第　11章 Hadoop与RDBMS数据迁移工具Sqoop　222 11.1　Sqoop简介及基本安装　222 11.2　Sqoop的配置　223 11.3　Sqoop的相关功能　224 11.3.1　Sqoop的工具命令　224 11.3.2　Sqoop与MySQL　225 11.3.3　sqoop-import操作　226 11.3.4　sqoop-import-all-tables 　操作　231 11.3.5　sqoop-export操作　232 11.3.6　sqoop-list-databases和　sqoop-list-tables操作　234 11.4　Hive、Pig和Sqoop三者　之间的关系　235 习题　236 第　12章大数据实时处理技术　237 12.1　Storm大数据实时处理技术　237 12.1.1　Apache Storm的组成结构　237 12.1.2　数据流与分组　238 12.1.3　Storm-Yarn产生的背景　240 12.1.4　Storm-Yarn的功能　240 12.2　Spark大数据实时处理技术　241 12.2.1　Apache Spark架构　241 12.2.2　Apache Spark的扩展功能　243 12.3　Storm与Spark的异同　245 习题　246 附录A 使用Eclipse提交Hadoop 任务时相关错误的修复　247 附录B 常用Pig内置函数　249

Hadoop大数据处理技术基础与实践（第2版）（微课版）

库存： {{selectedSku?.stock}} 库存充足