您好,欢迎来到聚文网。 登录 免费注册
大数据基本处理框架原理与实践

大数据基本处理框架原理与实践

  • 字数: 345000
  • 装帧: 平装
  • 出版社: 机械工业出版社
  • 出版日期: 2022-01-01
  • 商品条码: 9787111694939
  • 版次: 1
  • 开本: 16开
  • 页数: 224
  • 出版年份: 2022
定价:¥43.8 销售价:登录后查看价格  ¥{{selectedSku?.salePrice}} 
库存: {{selectedSku?.stock}} 库存充足
{{item.title}}:
{{its.name}}
精选
内容简介
本书针对大数据处理的两种典型方式,即批处理和流处理,介绍了当前Apache软件基金会三大软件开源项目Hadoop、Spark和Storm中主要的存储及计算框架。本书从初学者的角度出发,聚焦于大数据处理框架的基本原理以及安装和部署等实践过程。通过本书的学习,读者在了解处理框架的结构、设计原理以及执行流程等原理性知识的同时,还可以结合本书给出的完整部署过程以及WordCount等示例的完整源代码,熟悉如何使用这些处理框架来编写大数据处理程序以及大数据处理程序的基本结构。本书可作为高等院校计算机、数据科学与大数据技术及人工智能或相关专业的本科生或研究生教材,也可供相关工程技术人员阅读参考。
目录
前言
第1章 大数据与基本处理框架
1.1 大数据产生的背景
1.1.1 数字化
1.1.2 网络化
1.2 大数据的特征
1.3 大数据的价值与意义
1.3.1 量变到质变
1.3.2 数据科学的产生
1.3.3 思维的变革
1.4 大数据带来的挑战
1.5 大数据的基本处理框架
1.5.1 Hadoop
1.5.2 Spark
1.5.3 Storm
1.6 本章小结
第2章 运行与开发环境搭建
2.1 虚拟机的创建
2.1.1 虚拟化软件的安装
2.1.2 虚拟机的创建
2.1.3 VMware Tools的安装
2.2 Linux的常用命令
2.3 JDK的安装
2.4 IDEA+Maven的安装
2.4.1 IDEA的安装
2.4.2 Maven的安装
2.4.3 在IDEA项目中配置JDK和Maven
2.5 Hadoop运行环境部署
2.5.1 SSH的安装
2.5.2 Hadoop的安装
2.5.3 伪分布式环境配置
2.6 本章小结
第3章 Hadoop文件系统(HDFS)
3.1 文件系统
3.2 HDFS分布式文件系统
3.2.1 HDFS的设计目标
3.2.2 HDFS的原理与结构
3.3 HDFS的操作流程
3.3.1 HDFS文件读流程
3.3.2 HDFS文件写流程
3.4 HDFS的接口
3.4.1 Shell命令
3.4.2 Web客户端
3.4.3 Java API
3.5 本章小结
第4章 Hadoop分布式计算框架MapReduce
4.1 MapReduce计算框架概述
4.2 MapReduce计算过程
4.2.1 map阶段
4.2.2 shuffle阶段
4.2.3 reduce阶段
4.3 MapReduce的架构与运行流程
4.4 WordCount的MapReduce程序
4.4.1 WordCount程序的pom.xml文件
4.4.2 WordCount程序的Java文件
4.4.3 WordCount代码说明
4.5 Mapper/Reducer类源码解析
4.6 Hadoop的数据类型
4.6.1 Hadoop基本数据类型
4.6.2 自定义Hadoop数据类型
4.7 数据输入格式InputFormat
4.7.1 默认的TextInputFormat
4.7.2 getSplits()操作
4.7.3 LineRecordReader
4.7.4 自定义输入格式
4.8 数据的输出格式OutputFormat
4.8.1 默认的输出格式TextOutputFormat
4.8.2 LineRecordWriter
4.8.3 自定义输出格式类型
4.8.4 Hadoop的SequenceFile
4.9 自定义Combiner类
4.10 自定义Partioner类
4.11 多MapReduce任务的串联
4.12 本章小结
第5章 Hadoop数据库系统HBase
5.1 HBase概述
5.1.1 数据库与数据库系统
5.1.2 传统关系型数据库系统
5.1.3 NoSQL数据库系统
5.1.4 HBase数据库系统
5.2 HBase的数据模型
5.2.1 HBase的逻辑视图
5.2.2 HBase的物理视图
5.3 HBase的架构与运行机制
5.3.1 HBase分布式存储策略
5.3.2 HBase的运行架构
5.4 HBase的安装与部署
5.4.1 安装ZooKeeper
5.4.2 安装HBase
5.4.3 伪分布式环境配置
5.5 HBase操作接口与实践
5.5.1 HBase Shell命令
5.5.2 Java API
5.6 本章小结
第6章 分布式内存计算框架Spark
6.1 Spark概述
6.1.1 MapReduce计算框架的局限性
6.1.2 Spark的优势与特点
6.2 Spark的架构
6.2.1 Spark的基本组件
6.2.2 Spark的运行流程
6.3 RDD
6.3.1 RDD的概念与Spark计算模型
6.3.2 RDD的各种操作
6.3.3 RDD之间的依赖关系
6.3.4 RDD计算过程的容错处理
6.4 Scala语言介绍
6.4.1 变量和类型
6.4.2 控制结构
6.5 Spark的安装部署
6.5.1 Spark安装文件的下载
6.5.2 Spark的安装过程
6.6 基于Spark Shell的WordCount程序
6.6.1 启动Spark Shell
6.6.2 从本地及HDFS读取WordCount数据
6.6.3 退出Spark Shell
6.7 基于IDEA+Maven的WordCount程序
6.7.1 IDEA安装Scala插件与SDK
6.7.2 基于Scala的WordCount Spark应用程序
6.7.3 基于Java的WordCount Spark应用程序
6.8 Spark与HBase的整合
6.8.1 pom.xml文件
6.8.2 Scala Class文件
6.9 Spark创建RDD的常用方式
6.9.1 基于Scala集合创建RDD
6.9.2 基于外部存储系统创建RDD
6.10 Spark的共享变量
6.10.1 广播变量
6.10.2 累加器
6.11 本章小结
第7章 Spark流计算框架(Spark Streaming)
7.1 流计算与流计算框架
7.2 Spark Streaming的原理与概念
7.2.1 Spark Streaming的设计原理
7.2.2 Dstream与Dstream graph
7.2.3 Spark Streaming的结构与执行流程
7.2.4 Spark Streaming的容错处理
7.3 Spark Streaming的WordCount案例
7.3.1 以Socket为数据源
7.3.2 以文本文件目录为数据源
7.4 Spark Streaming整合Flume
7.4.1 Flume介绍
7.4.2 Flume的下载安装与配置
……

蜀ICP备2024047804号

Copyright 版权所有 © jvwen.com 聚文网