您好,欢迎来到聚文网。 登录 免费注册
数据馆员的Spark简明手册

数据馆员的Spark简明手册

  • 字数: 46
  • 出版社: 科技文献
  • 作者: 编者:顾立平//马景源
  • 商品条码: 9787518930159
  • 版次: 1
  • 开本: 32开
  • 页数: 83
  • 出版年份: 2017
  • 印次: 1
定价:¥28 销售价:登录后查看价格  ¥{{selectedSku?.salePrice}} 
库存: {{selectedSku?.stock}} 库存充足
{{item.title}}:
{{its.name}}
精选
内容简介
顾立平、马景源编著的《数据馆员的Spark简明 手册》旨在协助初级数据馆员们能够迅速了解Spark 方面的知识、用途及整体概貌,作为进一步实践操作 之前的入门基础读物。 本手册力求简单、通俗、易懂,以读者能够快速 把握重点为主,从而开展项目、课题、实验和研究。 本手册旨在知识模块化,有了整体概述,可以方便读 者与其他解决方案进行比较,在实践中遇到问题可以 尽快发现需要深入钻研的部分。 本手册包括8章。第1章概述Spark的发展背景、 计算框架及机器学习等。第2章描述Spark的安装与运 行。第3章概述Scala编程实现的方式。第4章概述 Spark编程模型和解析。第5章进入到Spark数据挖掘 的应用。第6章考虑大数据实时计算的问题,进行方 案比较,突出Spark的特点。第7章阐明进一步优化 Spark的方式。第8章概述Spark SQL来阐明如何在 Spark上使用人们比较熟悉的SQL数据库语言的方式。
作者简介
顾立平(Alan Ku),博士、教授。在中国科学院文献情报中心从事开放获取、著作权、数据权益的政策研究与建议;在中国科学院大学经济与管理学院讲授信息用户与服务研究。学术理念和工作信念是:好做事(态度)、做好事(方向)、做事好(目标)。
目录
第6章 Spark Strearning 6.1 Spark Strearning与Storm的区别 6.2 Kafka的部署 6.3 Kafka与Spark Strearning的整合 6.4 Spark Strearning原理 6.4.1 Spark流式处理架构 6.4.2 DStream的特点 6.4.3 Dstream的操作和RDD的区别 6.4.4 无状态转换操作与有状态转换操作 6.4.5 优化Spark Strearning 6.5 Strearning的容错机制 6.6 Strearning在YARN模式下的注意事项 第7章 Spark优化 7.1 序列化优化——Knro 7.2 Spark参数优化 7.3 Spark任务的均匀分布策略 7.4 Partition key倾斜的解决方案 7.5 Spark任务的监控 7.6 GC的优化 7.7 Spark Streaming吞吐量优化 7.8 Spark RDD使用内存的优化策略 第8章 SQL on Spark 8.1 BDAS数据分析软件栈 8.2 Spark SQL工具 8.3 Spark SQL原理 8.4 Spark SQL编程

蜀ICP备2024047804号

Copyright 版权所有 © jvwen.com 聚文网