您好,欢迎来到聚文网。 登录 免费注册
大数据技术基础

大数据技术基础

  • 字数: 427000
  • 装帧: 平装
  • 出版社: 中国铁道出版社有限公司
  • 作者: 罗金炎,董正山,雷进宇
  • 出版日期: 2023-09-01
  • 商品条码: 9787113304607
  • 版次: 1
  • 开本: 16开
  • 页数: 324
  • 出版年份: 2023
定价:¥59.8 销售价:登录后查看价格  ¥{{selectedSku?.salePrice}} 
库存: {{selectedSku?.stock}} 库存充足
{{item.title}}:
{{its.name}}
精选
内容简介
本书较为系统地讲解了大数据处理平台Hadoop和Spark生态系统的相关技术原理、使用方法和开发技术,全书共11章,主要包括大数据技术概述、 大数据处理平台Hadoop、分布式文件系统 HDFS 、分布式计算框架MapReduce、 Hadoop的发展和演化、数据仓库——Hive、 分布式数据库——HBase、 Spark的基本概念和整体架构及集群安装、 Spark核心编程、 Spark 生态系统、Flinkk基本概念和体系结构及编程实践。
目录
第1 章 绪论 11.1 大数据发展背景 11.2 大数据基本概念与特点 21.2.1 大数据基本概念 21.2.2 大数据的特点 41.3 大数据处理的关键技术 51.3.1 数据采集 51.3.2 数据存储 61.3.3 分析、建模、计算 71.3.4 结果展示 91.3.5 数据安全与隐私保护 101.4 大数据处理框架 111.4.1 并行计算面临的挑战 111.4.2 大数据并行处理系统 121.4.3 大数据并行处理框架的发展历程 131.5 大数据应用 161.5.1 大数据产业构建 161.5.2 大数据应用场景 181.5.3 大数据行业发展趋势 20小结 21习题 21思政小讲堂 22第2 章 大数据处理框架Hadoop 232.1 Hadoop 概述 232.1.1 Hadoop 的概念 232.1.2 Hadoop 发展史 242.1.3 Hadoop 版本 252.2 Hadoop 的体系结构和生态系统 262.2.1 Hadoop 的体系结构 262.2.2 Hadoop 生态系统 292.3 Hadoop 的特点、应用与发展趋势 312.3.1 Hadoop 的特点 312.3.2 Hadoop 的应用现状和前景 312.4 Hadoop 集群搭建和安装配置 342.4.1 Hadoop 集群搭建概述 342.4.2 Hadoop 安装、配置和启动 35小结 47习题 47思政小讲堂 47第3 章 分布式文件系统HDFS 493.1 分布式文件系统概述 493.2 HDFS 简介 513.3 HDFS 体系结构及相关概念 533.3.1 HDFS 体系结构 533.3.2 HDFS 相关概念 533.4 HDFS 的工作机制 593.4.1 HDFS 读数据的过程 603.4.2 HDFS 写数据的过程 613.5 访问HDFS 的方式 623.5.1 HDFS 的Shell 命令行方式 633.5.2 HDFS 的Java API 编程方式 653.5.3 HDFS 的Web 访问方式 683.6 实战:用Java 复制文件到HDFS 69小结 82习题 82思政小讲堂 83第4 章 分布式计算框架MapReduce 844.1 初识MapReduce 844.1.1 MapReduce 简介 844.1.2 MapReduce 的设计构思 854.1.3 MapReduce 的特点 874.2 MapReduce 的编程模型 884.2.1 概述 884.2.2 第一个MapReduce 程序—— WordCount 程序 894.3 MapReduce 的工作机制 944.3.1 MapReduce 的基本架构 944.3.2 MapReduce 的执行过程 964.3.3 MapReduce 的Shuffle 过程 994.4 Hadoop MapReduce 的序列化机制 1014.4.1 序列化概述 1014.4.2 Hadoop 对序列化机制的要求 1024.4.3 Hadoop 中的序列化相关接口 1024.5 MapReduce 的性能调优 1054.5.1 MapReduce 的参数配置优化 1054.5.2 启用数据压缩 1094.5.3 重用JVM 1094.6 实战:MapReduce 程序统计文本单词出现频次 110小结 117习题 118思政小讲堂 118第5 章 Hadoop 的发展与优化 1195.1 概述 1195.2 HDFS 的高可用和联邦 1205.2.1 HDFS 的HA 机制 1205.2.2 HDFS 的Federation 机制 1235.3 资源管理调度框架YARN 1255.3.1 YARN 简介 1255.3.2 YARN 的基本架构 1285.3.3 YARN 的工作流程 1305.3.4 YARN 的完善 1325.4 分布式协调服务组件Zookeeper 1335.4.1 Zookeeper 概述 1335.4.2 Zookeeper 服务 1355.4.3 Zookeeper 的应用场景 1385.4.4 Zookeeper 的安装配置 1405.5 实战:开发一个YARN 客户端应用 142小结 153习题 153思政小讲堂 154第6 章 分布式数据库HBase 1566.1 HBase 概述 1566.1.1 HBase 简介 1566.1.2 安装HBase 1586.2 HBase 基础 1606.2.1 HBase 架构 1606.2.2 HBase 数据存储 1626.3 HBase Shell 命令行方式 1636.3.1 NameSpace 操作 1646.3.2 DDL 操作 1646.3.3 DML 操作 1656.4 HBase API 编程方式 1656.4.1 客户端配置 1656.4.2 创建表 1666.4.3 删除表 1676.4.4 插入数据 1676.4.5 查询数据 1686.4.6 删除数据 1696.5 实战:HBase Shell 操作 169小结 176习题 176思政小讲堂 176第7 章 数据仓库Hive 1797.1 初识Hive 1797.1.1 Hive 简介 1797.1.2 Hive 的数据类型 1807.2 Hive 的原理及架构 1807.3 Hive 的数据操作和查询语言 1817.3.1 Hive Shell 命令行形式 1817.3.2 Hive DDL 操作 1827.3.3 Hive DML 操作 1837.4 Hive 的高级技术 1857.4.1 Hive 复杂数据类型 1857.4.2 Hive 索引 1877.4.3 优化Hive 执行 1887.4.4 使用分区 1887.4.5 使用桶 1907.4.6 Hive Java 编程接口 1917.4.7 Hive 自定义函数 1927.5 实战:Hive 综合实例 193小结 196习题 196思政小讲堂 196第8 章 基于内存的分布式计算 框架Spark 1988.1 Spark 概述 1988.1.1 Spark 的发展 1988.1.2 Spark 与Hadoop 的比较 1998.1.3 Spark 的特点 2008.2 Spark 架构设计 2018.3 Spark 运行架构及运行原理 2038.4 Spark 部署模式 2048.5 Spark 的应用场景 2058.5.1 数据处理应用 2058.5.2 数据科学任务 2068.6 Spark 集群安装与启动 2078.6.1 集群的安装 2088.6.2 Spark Shell 210小结 214习题 214思政小讲堂 214第9 章 Spark 核心编程 2169.1 RDD 编程基础 2169.1.1 RDD 概述 2169.1.2 RDD 创建 2179.1.3 RDD 操作 2199.1.4 RDD 持久化 2229.1.5 RDD 分区 2249.1.6 RDD 容错机制 2279.2 Spark DAG 工作原理 2279.2.1 Lineage 概述 2279.2.2 Spark DAG 概述 2289.2.3 Spark DAGScheduler 概述 2299.3 Spark stage 概述 2319.4 Spark 基础编程实践 2329.4.1 数据读写 2329.4.2 Spark RDD 基本操作 238小结 251习题 251思政小讲堂 252第10 章 Spark 生态系统 25310.1 Spark SQL 介绍 25310.1.1 Spark SQL 接口 25410.1.2 SparkSession 简介 25410.1.3 DataFrame 创建与操作 25510.1.4 Spark SQL 临时视图与全局视图 25710.1.5 Spark SQL 创建Datasets 25810.1.6 将 RDD 转化为 DataFrame 25910.1.7 Spark SQL 数据源 26110.1.8 Spark SQL REPL 26310.2 Spark Streaming 263.10.2.1 Spark Streaming 概述 26310.2.2 Spark Streaming 工作机制 26410.2.3 DStream 概述 26510.2.4 Spark Streaming 数据输入源 26510.2.5 DStream 支持的转换操作 26610.2.6 DStream 窗口操作 26710.2.7 DStream 输出操作 26910.3 Structured Streaming 26910.3.1 Structured Streaming 概述 27010.3.2 Structured Streaming 处理模型 27110.4 Spark MLlib 27210.4.1 MLlib 概述 27310.4.2 基本数据类型 27310.4.3 Spark 机器学习基本统计 27610.4.4 Spark 机器学习Pipeline 27810.4.5 Pipeline 示例 27910.5 Spark GraphX 介绍 28110.5.1 属性图 28110.5.2 属性图实例 28210.5.3 图操作 283小结 289习题 289思政小讲堂 289第11 章 流式数据处理引擎Flink 29111.1 Flink 概述 29111.1.1 Flink 的发展 29111.1.2 Flink 流处理的基本组件 29211.1.3 Flink 应用 29411.1.4 Flink 的部署 29711.2 Flink 架构 29811.3 Flink 编程模型 30111.4 Flink 应用程序结构 30211.5 Flink 环境搭建和简单使用 30411.5.1 安装Flink 30411.5.2 Scala Shell 的使用 30511.5.3 使用IntelliJ IDEA 开发Flink应用程序 306小结 312习题 312思政小讲堂 312参考文献 314

蜀ICP备2024047804号

Copyright 版权所有 © jvwen.com 聚文网