您好,欢迎来到聚文网。 登录 免费注册
SPARK SQL大数据实例开发教程

SPARK SQL大数据实例开发教程

深度剖析Spark SQL内核架构案例全面覆盖Spark SQL核心应用Spark SQL源码与性能调优全解密
  • 字数: 398
  • 装帧: 平装
  • 出版社: 机械工业出版社
  • 作者: 王家林 段智华 著
  • 出版日期: 2018-04-01
  • 商品条码: 1153310
  • 版次: 1
  • 开本: 16开
  • 页数: 254
  • 出版年份: 2018
定价:¥59 销售价:登录后查看价格  ¥{{selectedSku?.salePrice}} 
库存: {{selectedSku?.stock}} 库存充足
{{item.title}}:
{{its.name}}
精选
内容简介
Spark SQL是Spark生态环境中核心和基础的组件,是掌握Spark的关键所在。本书接近从企业级开发的角度出发,结合多个企业级应用案例,深入剖析Spark SQL。全书共分为8章,包括:认识Spark SQL、DataFrame原理与常用操作、Spark SQL操作多种数据源、Parquet列式存储、Spark SQL内置函数与窗口函数、Spark SQL UDF与UDAF、Thrift Server、Spark SQL综合应用案例。本书可以使读者对Spark SQL有深入有效的理解,本书适合于Spark学习爱好者,是学习Spark SQL的入门和提高教材,也是Spark开发工程师开发过程中查阅Spark SQL的案头手册。
目录
录前言章认识Spark SQL1.1Spark SQL概述1.1.1Spark SQL与DataFrame1.1.2DataFrame与RDD的差异1.1.3Spark SQL的发展历程1.2从零起步掌握Hive1.2.1Hive的本质是什么1.2.2Hive安装和配置1.2.3使用Hive分析搜索数据1.3Spark SQL on Hive安装与配置1.3.1安装Spark SQL1.3.2安装MySQL1.3.3启动Hive Metastore1.4Spark SQL初试1.4.1通过spark-shell来使用Spark SQL1.4.2Spark SQL的命令终端1.4.3Spark的Web UI1.5本章小结第2章DataFrame原理与常用操作2.1DataFrame编程模型2.2DataFrame基本操作实战2.2.1数据准备2.2.2启动交互式界面2.2.3数据处理与分析2.3通过RDD来构建DataFrame2.4缓存表(列式存储)2.5DataFrame API应用示例2.6本章小结第3章Spark SQL 操作多种数据源3.1通用的加载/保存功能3.1.1Spark SQL加载数据3.1.2Spark SQL保存数据3.1.3综合案例——电商热销商品排名3.2Spark SQL操作Hive示例3.3Spark SQL操作JSON数据集示例3.4Spark SQL操作HBase示例3.5Spark SQL操作MySQL示例3.5.1安装并启动MySQL3.5.2准备数据表3.5.3操作MySQL表3.6Spark SQL操作MongoDB示例3.6.1安装配置MongoDB3.6.2启动MongoDB3.6.3准备数据3.6.4Spark SQL操作MongoDB3.7本章小结第4章Parquet列式存储4.1Parquet概述4.1.1Parquet的基本概念4.1.2Parquet数据列式存储格式应用举例4.2Parquet的Block配置及数据分片4.2.1Parquet的Block的配置4.2.2Parquet 内部的数据分片4.3Parquet序列化4.3.1Spark实施序列化的目的4.3.2Parquet两种序列化方式4.4本章小结第5章Spark SQL内置函数与窗口函数5.1Spark SQL内置函数5.1.1Spark SQL内置函数概述5.1.2Spark SQL内置函数应用实例5.2Spark SQL窗口函数5.2.1Spark SQL窗口函数概述5.2.2Spark SQL窗口函数分数查询统计案例5.2.3Spark SQL窗口函数NBA常规赛数据统计案例5.3本章小结第6章Spark SQL UDF与UDAF6.1UDF概述6.2UDF示例6.2.1Hobby_count函数6.2.2Combine函数6.2.3Str2Int函数6.2.4Wsternstate函数6.2.5ManyCustomers函数6.2.6StateRegion函数6.2.7DiscountRatio函数6.2.8MakeStruct函数6.2.9MyDateFilter函数6.2.10MakeDT函数6.3UDAF概述6.4UDAF示例6.4.1ScalaAggregateFunction函数6.4.2GeometricMean函数6.4.3CustomMean函数6.4.4BelowThreshold函数6.4.5YearCompare函数6.4.6WordCount函数6.5本章小结第7章Thrift Server7.1Thrift概述7.1.1Thrift的基本概念7.1.2Thrift的工作机制7.1.3Thrift的运行机制7.1.4一个简单的Thrift 实例7.2Thrift Server的启动过程7.2.1Thrift Sever启动详解7.2.2HiveThriftServer2类的解析7.3Beeline操作7.3.1Beeline连接方式7.3.2在Beeline中进行SQL查询操作7.3.3通过Web控制台查看用户进行的操作7.4Thrift Server应用示例7.4.1示例源代码7.4.2关键代码行解析7.4.3测试运行7.4.4运行结果解析7.4.5Spark Web控制台查看运行日志7.5本章小结第8章Spark SQL综合应用案例8.1综合案例实战——电商网站日志多维度数据分析8.1.1数据准备8.1.2数据说明8.1.3数据创建8.1.4数据导入8.1.5数据测试和处理8.2综合案例实战——电商网站搜索排名统计8.2.1案例概述8.2.2数据准备8.2.3实现用户每天搜索前3名的商品排名统计8.3本章小结
摘要
“Use of MapReduce engine for Big Data projects will decline, replaced by Apache Spark” MapReduce计算模型的使用会越来越少,最终将被Apache Spark所取代。 ——Hadoop之父Doug Cutting写作背景Spark是一个快速大规模数据处理的通用引擎。它给Java、Scala、Python和R等语言提供了不错API,并基于统一抽象的RDD(弹性分布式数据集),逐渐形成了一套自己的生态系统。这个生态系统主要包括负责SQL和结构化数据处理的Spark SQL、负责实时流处理的Spark Streaming、负责图计算的Spark GraphX以及机器学习子框架Mlib。Spark在处理各种场景时,提供给用户统一的编程体验,可极大地提高编程效率。 Hive是运行在Hadoop上的SQL on Hadoop工具,它的推出是为了给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具,但是MapReduce在计算过程中消耗大量I/O资源,降低了运行效率。为了提高SQL on Hadoop的效率,Shark出现了,它使得SQL on Hadoop的性能比Hive有了10~100倍的提高。但Shark对于Hive的过度依赖(如采用Hive的语法解析器、查询优化器等),制约了Spark的发展,所以提出了Spark SQL项目,Spark SQL抛弃Shark原有的弊端,又汲取了Shark的一些优点,如内存列存储(In-Memory Columnar Storage)、Hive的兼容性等,由于摆脱了对Hive的依赖性,Spark SQL在数据兼容、性能优化、组件扩展等方面的性能都得到了极大的提升。 Spark SQL是Spark生态环境中最核心和最基础的组件,是掌握Spark的关键所在。由于目前市场上介绍Spark技术的书籍比较少,尤其是单独讲解Spark SQL的书更是凤毛麟角,我们特意编写了这本理论和实战相结合的Spark SQL书籍,在介绍Spark SQL核心技术的同时又配备了丰富的示例,同时还穿插了源代码的分析,使读者能从更深层次来把握Spark SQL的核心技术。 内容速览本书完全从企业级开发的角度出发,结合多个企业级应用案例,深入剖析Spark SQL。 全书一共分为8章,主要内容概括如下: 章认识Spark SQL,引领读者了解Spark SQL的基础知识,接下来的第2章至第7章,结合实战案例,引导读者掌握Spark SQL的核心知识,这6章内容分别为:DataFrame原理与常用操作、Spark SQL操作多种数据源、Parquet列式存储、Spark SQL内置函数与窗口函数、Spark SQL UDF与UDAF、Thrift Server;本书的最后部分,第8章Spark SQL综合应用案例归纳并综合运用了全部Spark SQL知识点,是深入理解Spark SQL的经典案例。 本书可以使读者对Spark SQL有深入的理解,是Spark爱好者用来学习Spark SQL的理想教程,也是Spark开发工程师在开发过程中可随时查阅的案头手册。 本书作者本书由王家林和段智华编写。 预备知识在学习本书之前读者需要熟悉基本的Linux命令及Java、Scala语言,掌握基本的Spark知识架构,能够搭建Spark集群环境。 致谢在本书编写的过程中,作者参考了很多网络上的书籍和博客,在此谢谢各位作者,正是你们的无私奉献,才推动了Spark技术的快速发展。 特别感谢“小小”同学为本书的编写提供的各种协调和热心帮助。 由于笔者能力有限,书中难免存在错误或表达不准确的内容,恳请大家批评指正,希望大家一起努力使Spark技术在大数据计算领域里推广开来。 作者2017.9

蜀ICP备2024047804号

Copyright 版权所有 © jvwen.com 聚文网