大数据处理技术基础与应用（Hadoop+Spark)--聚文网

精选

¥5.83

世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版

¥5.39

正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册

¥8.58

简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版

¥5.83

世界文学名著全49册中小学生青少年课外书籍文学小说批发正版

¥4.95

全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷

¥8.69

父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册

¥24.2

好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册

¥7.15

幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书

¥11.55

用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书

¥19.8

少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版

¥64

科学真好玩

¥12.7

一年级下4册·读读童谣和儿歌

¥38.4

原生态新生代(传统木版年画的当代传承国际研讨会论文集)

¥11.14

法国经典中篇小说

¥11.32

上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)

¥22.05

猫的摇篮(精)

¥30.72

幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书

旧时风物(精)

三希堂三帖/墨林珍赏

寒山子庞居士诗帖/墨林珍赏

苕溪帖/墨林珍赏

楷书王维诗卷/墨林珍赏

兰亭序/墨林珍赏

祭侄文稿/墨林珍赏

蜀素帖/墨林珍赏

真草千字文/墨林珍赏

进宴仪轨(精)/中国古代舞乐域外图书

舞蹈音乐的基础理论与应用

内容简介

本书是一本介绍大数据处理技术的专业图书，力求提高读者对大数据处理的认知水平和动手能力。本书首先介绍大数据技术的相关概念和发展历程，从实践的角度介绍 Hadoop 和 Spark 的安装部署、编程基础和使用方法；然后结合具体案例，重点介绍 Spark RDD、 Spark SQL、 Spark Streaming、 Spark GraphFrame 等的应用思路和方法，并通过具体代码，让读者更好地感受大数据处理技术的效果。本书既可以作为高等院校计算机、大数据等相关专业的教材，也可以作为大数据技术相关从业人员的参考书，还可作为零基础人员学习 Hadoop 和 Spark 技术的入门图书。

作者简介

许桂秋，北京中科特瑞科技有限公司运营总监，主要研究方向为大数据、人工智能技术，已出版《大数据导论》《Python编程基础与应用》《NoSQL数据库原理与应用》《数据挖掘与机器学习》等图书。

第 1章大数据技术概述 1 1.1 大数据技术简介 1 1.1.1 大数据的发展 1 1.1.2 大数据的流程 4 1.2 大数据的主流软件 5 1.2.1 Hadoop 5 1.2.2 Spark 8 1.2.3 Flink 10 1.2.4 Hadoop与Spark对比 11 1.3 大数据的主流编程语言 12 1.3.1 Python语言 12 1.3.2 Java语言 13 1.3.3 Scala语言 13 1.4 本章小结 13 第 2章 Hadoop部署安装与使用 14 2.1 Linux基本操作 14 2.1.1 Linux简介 14 2.1.2 新建与删除用户 15 2.1.3 目录权限的查看与修改 16 2.1.4 Linux的常用命令 18 2.1.5 任务实现 21 2.2 搭建Hadoop完全分布式集群 21 2.2.1 关闭防火墙 21 2.2.2 安装SSH 22 2.2.3 安装Xshell及Xftp（可选） 22 2.2.4 安装Java 24 2.2.5 安装Hadoop 25 2.2.6 克隆主机 27 2.2.7 安装完全分布式模式 29 2.3 查看Hadoop集群的基本信息 37 2.3.1 查询存储系统信息 37 2.3.2 查询计算资源信息 38 2.4 本章小结 39 第3章 HDFS基本操作 40 3.1 Hadoop Shell命令操作HDFS 40 3.1.1 HDFS简介 40 3.1.2 HDFS Shell命令简介 45 3.1.3 目录操作 47 3.1.4 文件操作 47 3.1.5 利用Web界面管理HDFS 50 3.1.6 任务实现 52 3.2 Java操作HDFS 52 3.2.1 在Eclipse中创建HDFS交互Java项目 53 3.2.2 在Java项目中编写Java应用程序 57 3.2.3 编译运行应用程序与打包文件 59 3.2.4 任务实现 63 3.2.5 文件常用操作的参考代码 65 3.3 本章小结 71 第4章 MapReduce基本原理与编程实现 72 4.1 MapReduce基本原理 72 4.1.1 MapReduce简介 72 4.1.2 MapReduce编程核心思想 73 4.1.3 MapReduce编程规范 74 4.1.4 MapReduce的输入格式 75 4.1.5 MapReduce的输出格式 77 4.1.6 分区 77 4.1.7 合并 78 4.2 编程实现——按访问次数排序 79 4.2.1 编程思路与处理逻辑 79 4.2.2 核心模块代码 81 4.2.3 任务实现 83 4.3 本章小结 86 第5章 Hive部署与编程基础 87 5.1 搭建伪分布式Hive 87 5.1.1 Hive概述 87 5.1.2 Hive安装和配置 89 5.2 Hive基本操作 91 5.2.1 数据库基本操作 92 5.2.2 数据表基本操作 93 5.2.3 数据基本操作 95 5.3 编程实现——部门工资统计 96 5.4 本章小结 98 第6章 Spark部署与编程基础 99 6.1 Spark的运行原理 99 6.1.1 集群架构 99 6.1.2 运行流程 100 6.1.3 核心数据集RDD 101 6.1.4 核心原理 101 6.2 Scala安装与使用 102 6.2.1 Scala 语言概述 102 6.2.2 Scala特性 102 6.2.3 环境设置与安装 103 6.3 Spark安装与使用 105 6.3.1 环境搭建前的准备 105 6.3.2 Spark的安装与配置 106 6.3.3 在PySpark中运行代码 109 6.3.4 编程实现——Spark独立应用程序 111 6.4 本章小结 112 第7章 Spark RDD：弹性分布式数据集 113 7.1 RDD概述 113 7.2 RDD编程 114 7.2.1 RDD编程基础 114 7.2.2 键值对RDD 136 7.2.3 数据读/写操作 141 7.3 编程实现 145 7.3.1 任务1：取出排名前五的订单支付金额 145 7.3.2 任务2：文件排序 149 7.3.3 任务3：二次排序 153 7.4 本章小结 158 第8章 Spark SQL：结构化数据文件处理 159 8.1 Spark SQL概述 159 8.1.1 Spark SQL简介 159 8.1.2 Spark SQL CLI配置 160 8.1.3 Spark SQL与Shell交互 161 8.2 DataFrame基础操作 161 8.2.1 创建DataFrame对象 162 8.2.2 DataFrame查看数据 168 8.2.3 DataFrame查询操作 171 8.2.4 DataFrame输出操作 176 8.3 Spark SQL与MySQL的交互 177 8.4 本章小结 180 第9章 Spark Streaming：实时计算框架 181 9.1 Spark Streaming概述 181 9.1.1 Spark Streaming应用场景 181 9.1.2 流计算概述 181 9.1.3 Spark Streaming特性分析 184 9.2 DStream编程模型基础 187 9.2.1 DStream概述 187 9.2.2 基本输入源 188 9.2.3 转换操作 196 9.2.4 输出操作 201 9.3 编程实现——流数据过滤与分析 206 9.4 本章小结 210 第 10章 Spark GraphFrames：图计算 211 10.1 图计算概述 211 10.1.1 图的基本概念 211 10.1.2 图计算的应用 212 10.1.3 GraphFrames简介 213 10.2 GraphFrames编程模型基础 213 10.2.1 创建实例化图 213 10.2.2 视图和图操作 214 10.2.3 保存和加载图 216 10.3 编程实现——基于GraphFrames的网页排名 216 10.3.1 准备数据集 217 10.3.2 GraphFrames实现算法 218 10.3.3 使用PageRank进行网页排名 220 10.4 本章小结 220 第 11章大数据生态常用工具介绍 221 11.1 Flume的安装与使用 221 11.1.1 安装及配置Flume 221 11.1.2 实例分析 223 11.2 Kafka的安装与使用 225 11.2.1 Kafka相关概念 225 11.2.2 安装Kafka 225 11.2.3 实例分析 225 11.3 Sqoop的安装与使用 226 11.3.1 安装及配置Sqoop 227 11.3.2 添加MySQL驱动程序 229 11.3.3 测试Sqoop与MySQL的连接 229 11.4 编程实现——编写Spark程序使用Kafka数据源 230 11.4.1 Kafka准备工作 230 11.4.2 Spark准备工作 231 11.4.3 编写代码 233 11.5 本章小结 237

大数据处理技术基础与应用（Hadoop+Spark)

库存： {{selectedSku?.stock}} 库存充足