您好,欢迎来到聚文网。
登录
免费注册
网站首页
|
搜索
热搜:
购物车
0
我的订单
商品分类
首页
幼儿
文学
社科
教辅
生活
销量榜
大数据基本处理框架原理与实践
字数: 345000
装帧: 平装
出版社: 机械工业出版社
出版日期: 2022-01-01
商品条码: 9787111694939
版次: 1
开本: 16开
页数: 224
出版年份: 2022
定价:
¥43.8
销售价:
登录后查看价格
¥{{selectedSku?.salePrice}}
库存:
{{selectedSku?.stock}}
库存充足
{{item.title}}:
{{its.name}}
加入购物车
立即购买
加入书单
收藏
精选
¥5.83
世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版
¥5.39
正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册
¥8.58
简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版
¥5.83
世界文学名著全49册中小学生青少年课外书籍文学小说批发正版
¥4.95
全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷
¥8.69
父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册
¥24.2
好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册
¥7.15
幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书
¥11.55
用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书
¥19.8
少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版
¥64
科学真好玩
¥12.7
一年级下4册·读读童谣和儿歌
¥38.4
原生态新生代(传统木版年画的当代传承国际研讨会论文集)
¥11.14
法国经典中篇小说
¥11.32
上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)
¥21.56
猫的摇篮(精)
¥30.72
幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书
¥24.94
旧时风物(精)
¥12.04
三希堂三帖/墨林珍赏
¥6.88
寒山子庞居士诗帖/墨林珍赏
¥6.88
苕溪帖/墨林珍赏
¥6.88
楷书王维诗卷/墨林珍赏
¥9.46
兰亭序/墨林珍赏
¥7.74
祭侄文稿/墨林珍赏
¥7.74
蜀素帖/墨林珍赏
¥12.04
真草千字文/墨林珍赏
¥114.4
进宴仪轨(精)/中国古代舞乐域外图书
¥24.94
舞蹈音乐的基础理论与应用
内容简介
本书针对大数据处理的两种典型方式,即批处理和流处理,介绍了当前Apache软件基金会三大软件开源项目Hadoop、Spark和Storm中主要的存储及计算框架。本书从初学者的角度出发,聚焦于大数据处理框架的基本原理以及安装和部署等实践过程。通过本书的学习,读者在了解处理框架的结构、设计原理以及执行流程等原理性知识的同时,还可以结合本书给出的完整部署过程以及WordCount等示例的完整源代码,熟悉如何使用这些处理框架来编写大数据处理程序以及大数据处理程序的基本结构。本书可作为高等院校计算机、数据科学与大数据技术及人工智能或相关专业的本科生或研究生教材,也可供相关工程技术人员阅读参考。
目录
前言
第1章 大数据与基本处理框架
1.1 大数据产生的背景
1.1.1 数字化
1.1.2 网络化
1.2 大数据的特征
1.3 大数据的价值与意义
1.3.1 量变到质变
1.3.2 数据科学的产生
1.3.3 思维的变革
1.4 大数据带来的挑战
1.5 大数据的基本处理框架
1.5.1 Hadoop
1.5.2 Spark
1.5.3 Storm
1.6 本章小结
第2章 运行与开发环境搭建
2.1 虚拟机的创建
2.1.1 虚拟化软件的安装
2.1.2 虚拟机的创建
2.1.3 VMware Tools的安装
2.2 Linux的常用命令
2.3 JDK的安装
2.4 IDEA+Maven的安装
2.4.1 IDEA的安装
2.4.2 Maven的安装
2.4.3 在IDEA项目中配置JDK和Maven
2.5 Hadoop运行环境部署
2.5.1 SSH的安装
2.5.2 Hadoop的安装
2.5.3 伪分布式环境配置
2.6 本章小结
第3章 Hadoop文件系统(HDFS)
3.1 文件系统
3.2 HDFS分布式文件系统
3.2.1 HDFS的设计目标
3.2.2 HDFS的原理与结构
3.3 HDFS的操作流程
3.3.1 HDFS文件读流程
3.3.2 HDFS文件写流程
3.4 HDFS的接口
3.4.1 Shell命令
3.4.2 Web客户端
3.4.3 Java API
3.5 本章小结
第4章 Hadoop分布式计算框架MapReduce
4.1 MapReduce计算框架概述
4.2 MapReduce计算过程
4.2.1 map阶段
4.2.2 shuffle阶段
4.2.3 reduce阶段
4.3 MapReduce的架构与运行流程
4.4 WordCount的MapReduce程序
4.4.1 WordCount程序的pom.xml文件
4.4.2 WordCount程序的Java文件
4.4.3 WordCount代码说明
4.5 Mapper/Reducer类源码解析
4.6 Hadoop的数据类型
4.6.1 Hadoop基本数据类型
4.6.2 自定义Hadoop数据类型
4.7 数据输入格式InputFormat
4.7.1 默认的TextInputFormat
4.7.2 getSplits()操作
4.7.3 LineRecordReader
4.7.4 自定义输入格式
4.8 数据的输出格式OutputFormat
4.8.1 默认的输出格式TextOutputFormat
4.8.2 LineRecordWriter
4.8.3 自定义输出格式类型
4.8.4 Hadoop的SequenceFile
4.9 自定义Combiner类
4.10 自定义Partioner类
4.11 多MapReduce任务的串联
4.12 本章小结
第5章 Hadoop数据库系统HBase
5.1 HBase概述
5.1.1 数据库与数据库系统
5.1.2 传统关系型数据库系统
5.1.3 NoSQL数据库系统
5.1.4 HBase数据库系统
5.2 HBase的数据模型
5.2.1 HBase的逻辑视图
5.2.2 HBase的物理视图
5.3 HBase的架构与运行机制
5.3.1 HBase分布式存储策略
5.3.2 HBase的运行架构
5.4 HBase的安装与部署
5.4.1 安装ZooKeeper
5.4.2 安装HBase
5.4.3 伪分布式环境配置
5.5 HBase操作接口与实践
5.5.1 HBase Shell命令
5.5.2 Java API
5.6 本章小结
第6章 分布式内存计算框架Spark
6.1 Spark概述
6.1.1 MapReduce计算框架的局限性
6.1.2 Spark的优势与特点
6.2 Spark的架构
6.2.1 Spark的基本组件
6.2.2 Spark的运行流程
6.3 RDD
6.3.1 RDD的概念与Spark计算模型
6.3.2 RDD的各种操作
6.3.3 RDD之间的依赖关系
6.3.4 RDD计算过程的容错处理
6.4 Scala语言介绍
6.4.1 变量和类型
6.4.2 控制结构
6.5 Spark的安装部署
6.5.1 Spark安装文件的下载
6.5.2 Spark的安装过程
6.6 基于Spark Shell的WordCount程序
6.6.1 启动Spark Shell
6.6.2 从本地及HDFS读取WordCount数据
6.6.3 退出Spark Shell
6.7 基于IDEA+Maven的WordCount程序
6.7.1 IDEA安装Scala插件与SDK
6.7.2 基于Scala的WordCount Spark应用程序
6.7.3 基于Java的WordCount Spark应用程序
6.8 Spark与HBase的整合
6.8.1 pom.xml文件
6.8.2 Scala Class文件
6.9 Spark创建RDD的常用方式
6.9.1 基于Scala集合创建RDD
6.9.2 基于外部存储系统创建RDD
6.10 Spark的共享变量
6.10.1 广播变量
6.10.2 累加器
6.11 本章小结
第7章 Spark流计算框架(Spark Streaming)
7.1 流计算与流计算框架
7.2 Spark Streaming的原理与概念
7.2.1 Spark Streaming的设计原理
7.2.2 Dstream与Dstream graph
7.2.3 Spark Streaming的结构与执行流程
7.2.4 Spark Streaming的容错处理
7.3 Spark Streaming的WordCount案例
7.3.1 以Socket为数据源
7.3.2 以文本文件目录为数据源
7.4 Spark Streaming整合Flume
7.4.1 Flume介绍
7.4.2 Flume的下载安装与配置
……
×
Close
添加到书单
加载中...
点此新建书单
×
Close
新建书单
标题:
简介:
蜀ICP备2024047804号
Copyright 版权所有 © jvwen.com 聚文网