您好,欢迎来到聚文网。 登录 免费注册
Spark大数据处理

Spark大数据处理

  • 装帧: 平装
  • 出版社: 机械工业出版社
  • 作者: 高彦杰 著
  • 出版日期: 2014-11-01
  • 商品条码: 9787111483861
  • 版次: 1
  • 开本: 16开
  • 页数: 255
  • 出版年份: 2014
定价:¥59 销售价:登录后查看价格  ¥{{selectedSku?.salePrice}} 
库存: {{selectedSku?.stock}} 库存充足
{{item.title}}:
{{its.name}}
精选
内容简介
全书9章,共分为4个部分:第1-3章介绍了Spark的体系结构、集群环境的部署和计算模型,以及Intel、淘宝、腾讯和网易几个大公司的Spark应用案例;第4-6章讲解了Spark工作机制、Spark应用程序开发流程开流程,然后讲解了几个实用性较强的案例;第7章讲解了Spak的Benchmark;第8章讲解了BDAS,其中的程序可在Spark中引入并应用;第9章深入分析了Spark的性能调优相关的知识。
作者简介
高彦杰,毕业于中国人民大学,就职于IBM,精通Hadoop相关技术,较早接触并使用Spark,对Spark应用开发、Spark系统的运维和测试比较熟悉,深度阅读了Spark的源代码,了解Spark的运行机制,擅长Spark的查询优化。
目录
前言
第1章Spark简介1
1.1Spark是什么1
1.2Spark生态系统BDAS4
1.3Spark架构6
1.4Spark分布式架构与单机多核
架构的异同9
1.5Spark的企业级应用10
1.5.1Spark在Amazon中的应用11
1.5.2Spark在Yahoo!的应用15
1.5.3Spark在西班牙电信的应用17
1.5.4Spark在淘宝的应用18
1.6本章小结20
第2章Spark集群的安装与部署21
2.1Spark的安装与部署21
2.1.1在Linux集群上安装与配置Spark21
2.1.2在Windows上安装与配置Spark30
2.2Spark集群初试33
2.3本章小结35
第3章Spark计算模型36
3.1Spark程序模型36
3.2弹性分布式数据集37
3.2.1RDD简介38
3.2.2RDD与分布式共享内存的异同38
3.2.3Spark的数据存储39
3.3Spark算子分类及功能41
3.3.1Value型Transformation算子42
3.3.2Key-Value型Transformation算子49
3.3.3Actions算子53
3.4本章小结59
第4章Spark工作机制详解60
4.1Spark应用执行机制60
4.1.1Spark执行机制总览60
4.1.2Spark应用的概念62
4.1.3应用提交与执行方式63
4.2Spark调度与任务分配模块65
4.2.1Spark应用程序之间的调度66
4.2.2Spark应用程序内Job的调度67
4.2.3Stage和TaskSetManager调度方式72
4.2.4Task调度74
4.3SparkI/O机制77
4.3.1序列化77
4.3.2压缩78
4.3.3Spark块管理80
4.4Spark通信模块93
4.4.1通信框架AKKA94
4.4.2Client、Master和Worker间的通信95
4.5容错机制104
4.5.1Lineage机制104
4.5.2Checkpoint机制108
4.6Shuffle机制110
4.7本章小结119
第5章Spark开发环境配置及流程120
5.1Spark应用开发环境配置120
5.1.1使用Intellij开发Spark程序120
5.1.2使用Eclipse开发Spark程序125
5.1.3使用SBT构建Spark程序129
5.1.4使用SparkShell开发运行Spark程序130
5.2远程调试Spark程序130
5.3Spark编译132
5.4配置Spark源码阅读环境135
5.5本章小结135
第6章Spark编程实战136
6.1WordCount136
6.2TopK138
6.3中位数140
6.4倒排索引141
6.5CountOnce143
6.6倾斜连接144
6.7股票趋势预测146
6.8本章小结153
第7章Benchmark使用详解154
7.1Benchmark简介154
7.1.1IntelHibench与BerkeleyBigDataBench155
7.1.2HadoopGridMix157
7.1.3Bigbench、BigDataBenchmark与TPC-DS158
7.1.4其他Benchmark161
7.2Benchmark的组成162
7.2.1数据集162
7.2.2工作负载163
7.2.3度量指标167
7.3Benchmark的使用168
7.3.1使用Hibench168
7.3.2使用TPC-DS170
7.3.3使用BigDataBench172
7.4本章小结176
第8章BDAS简介177
8.1SQLonSpark177
8.1.1使用SparkSQL的原因178
8.1.2SparkSQL架构分析179
8.1.3Shark简介182
8.1.4HiveonSpark184
8.1.5未来展望185
8.2SparkStreaming185
8.2.1SparkStreaming简介186
8.2.2SparkStreaming架构188
8.2.3SparkStreaming原理剖析189
8.2.4SparkStreaming调优198
8.2.5SparkStreaming实例198
8.3GraphX205
8.3.1GraphX简介205
8.3.2GraphX的使用206
8.3.3GraphX架构209
8.3.4运行实例211
8.4MLlib215
8.4.1MLlib简介217
8.4.2MLlib的数据存储219
8.4.3数据转换为向量(向量空间模型VSM)222
8.4.4MLlib中的聚类和分类223
8.4.5算法应用实例228
8.4.6利用MLlib进行电影推荐230
8.5本章小结237
第9章Spark性能调优238
9.1配置参数238
9.2调优技巧239
9.2.1调度与分区优化240
9.2.2内存存储优化243
9.2.3网络传输优化249
9.2.4序列化与压缩251
9.2.5其他优化方法253
9.3本章小结255

蜀ICP备2024047804号

Copyright 版权所有 © jvwen.com 聚文网