SPARK SQL大数据实例开发教程--聚文网

精选

¥5.83

世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版

¥5.39

正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册

¥8.58

简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版

¥5.83

世界文学名著全49册中小学生青少年课外书籍文学小说批发正版

¥4.95

全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷

¥8.69

父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册

¥24.2

好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册

¥7.15

幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书

¥11.55

用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书

¥19.8

少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版

¥64

科学真好玩

¥12.7

一年级下4册·读读童谣和儿歌

¥38.4

原生态新生代(传统木版年画的当代传承国际研讨会论文集)

¥11.14

法国经典中篇小说

¥11.32

上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)

¥22.05

猫的摇篮(精)

¥30.72

幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书

旧时风物(精)

三希堂三帖/墨林珍赏

寒山子庞居士诗帖/墨林珍赏

苕溪帖/墨林珍赏

楷书王维诗卷/墨林珍赏

兰亭序/墨林珍赏

祭侄文稿/墨林珍赏

蜀素帖/墨林珍赏

真草千字文/墨林珍赏

进宴仪轨(精)/中国古代舞乐域外图书

舞蹈音乐的基础理论与应用

内容简介

Spark SQL是Spark生态环境中核心和基础的组件，是掌握Spark的关键所在。本书接近从企业级开发的角度出发，结合多个企业级应用案例，深入剖析Spark SQL。全书共分为8章，包括：认识Spark SQL、DataFrame原理与常用操作、Spark SQL操作多种数据源、Parquet列式存储、Spark SQL内置函数与窗口函数、Spark SQL UDF与UDAF、Thrift Server、Spark SQL综合应用案例。本书可以使读者对Spark SQL有深入有效的理解，本书适合于Spark学习爱好者，是学习Spark SQL的入门和提高教材，也是Spark开发工程师开发过程中查阅Spark SQL的案头手册。

录前言章认识Spark SQL1.1Spark SQL概述1.1.1Spark SQL与DataFrame1.1.2DataFrame与RDD的差异1.1.3Spark SQL的发展历程1.2从零起步掌握Hive1.2.1Hive的本质是什么1.2.2Hive安装和配置1.2.3使用Hive分析搜索数据1.3Spark SQL on Hive安装与配置1.3.1安装Spark SQL1.3.2安装MySQL1.3.3启动Hive Metastore1.4Spark SQL初试1.4.1通过spark-shell来使用Spark SQL1.4.2Spark SQL的命令终端1.4.3Spark的Web UI1.5本章小结第2章DataFrame原理与常用操作2.1DataFrame编程模型2.2DataFrame基本操作实战2.2.1数据准备2.2.2启动交互式界面2.2.3数据处理与分析2.3通过RDD来构建DataFrame2.4缓存表（列式存储）2.5DataFrame API应用示例2.6本章小结第3章Spark SQL 操作多种数据源3.1通用的加载/保存功能3.1.1Spark SQL加载数据3.1.2Spark SQL保存数据3.1.3综合案例——电商热销商品排名3.2Spark SQL操作Hive示例3.3Spark SQL操作JSON数据集示例3.4Spark SQL操作HBase示例3.5Spark SQL操作MySQL示例3.5.1安装并启动MySQL3.5.2准备数据表3.5.3操作MySQL表3.6Spark SQL操作MongoDB示例3.6.1安装配置MongoDB3.6.2启动MongoDB3.6.3准备数据3.6.4Spark SQL操作MongoDB3.7本章小结第4章Parquet列式存储4.1Parquet概述4.1.1Parquet的基本概念4.1.2Parquet数据列式存储格式应用举例4.2Parquet的Block配置及数据分片4.2.1Parquet的Block的配置4.2.2Parquet 内部的数据分片4.3Parquet序列化4.3.1Spark实施序列化的目的4.3.2Parquet两种序列化方式4.4本章小结第5章Spark SQL内置函数与窗口函数5.1Spark SQL内置函数5.1.1Spark SQL内置函数概述5.1.2Spark SQL内置函数应用实例5.2Spark SQL窗口函数5.2.1Spark SQL窗口函数概述5.2.2Spark SQL窗口函数分数查询统计案例5.2.3Spark SQL窗口函数NBA常规赛数据统计案例5.3本章小结第6章Spark SQL UDF与UDAF6.1UDF概述6.2UDF示例6.2.1Hobby_count函数6.2.2Combine函数6.2.3Str2Int函数6.2.4Wsternstate函数6.2.5ManyCustomers函数6.2.6StateRegion函数6.2.7DiscountRatio函数6.2.8MakeStruct函数6.2.9MyDateFilter函数6.2.10MakeDT函数6.3UDAF概述6.4UDAF示例6.4.1ScalaAggregateFunction函数6.4.2GeometricMean函数6.4.3CustomMean函数6.4.4BelowThreshold函数6.4.5YearCompare函数6.4.6WordCount函数6.5本章小结第7章Thrift Server7.1Thrift概述7.1.1Thrift的基本概念7.1.2Thrift的工作机制7.1.3Thrift的运行机制7.1.4一个简单的Thrift 实例7.2Thrift Server的启动过程7.2.1Thrift Sever启动详解7.2.2HiveThriftServer2类的解析7.3Beeline操作7.3.1Beeline连接方式7.3.2在Beeline中进行SQL查询操作7.3.3通过Web控制台查看用户进行的操作7.4Thrift Server应用示例7.4.1示例源代码7.4.2关键代码行解析7.4.3测试运行7.4.4运行结果解析7.4.5Spark Web控制台查看运行日志7.5本章小结第8章Spark SQL综合应用案例8.1综合案例实战——电商网站日志多维度数据分析8.1.1数据准备8.1.2数据说明8.1.3数据创建8.1.4数据导入8.1.5数据测试和处理8.2综合案例实战——电商网站搜索排名统计8.2.1案例概述8.2.2数据准备8.2.3实现用户每天搜索前3名的商品排名统计8.3本章小结

摘要

“Use of MapReduce engine for Big Data projects will decline, replaced by Apache Spark” MapReduce计算模型的使用会越来越少，最终将被Apache Spark所取代。 ——Hadoop之父Doug Cutting写作背景Spark是一个快速大规模数据处理的通用引擎。它给Java、Scala、Python和R等语言提供了不错API，并基于统一抽象的RDD（弹性分布式数据集），逐渐形成了一套自己的生态系统。这个生态系统主要包括负责SQL和结构化数据处理的Spark SQL、负责实时流处理的Spark Streaming、负责图计算的Spark GraphX以及机器学习子框架Mlib。Spark在处理各种场景时，提供给用户统一的编程体验，可极大地提高编程效率。 Hive是运行在Hadoop上的SQL on Hadoop工具，它的推出是为了给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具，但是MapReduce在计算过程中消耗大量I/O资源，降低了运行效率。为了提高SQL on Hadoop的效率，Shark出现了，它使得SQL on Hadoop的性能比Hive有了10~100倍的提高。但Shark对于Hive的过度依赖（如采用Hive的语法解析器、查询优化器等），制约了Spark的发展，所以提出了Spark SQL项目，Spark SQL抛弃Shark原有的弊端，又汲取了Shark的一些优点，如内存列存储（In-Memory Columnar Storage）、Hive的兼容性等，由于摆脱了对Hive的依赖性，Spark SQL在数据兼容、性能优化、组件扩展等方面的性能都得到了极大的提升。 Spark SQL是Spark生态环境中最核心和最基础的组件，是掌握Spark的关键所在。由于目前市场上介绍Spark技术的书籍比较少，尤其是单独讲解Spark SQL的书更是凤毛麟角，我们特意编写了这本理论和实战相结合的Spark SQL书籍，在介绍Spark SQL核心技术的同时又配备了丰富的示例，同时还穿插了源代码的分析，使读者能从更深层次来把握Spark SQL的核心技术。内容速览本书完全从企业级开发的角度出发，结合多个企业级应用案例，深入剖析Spark SQL。全书一共分为8章，主要内容概括如下：章认识Spark SQL，引领读者了解Spark SQL的基础知识，接下来的第2章至第7章，结合实战案例，引导读者掌握Spark SQL的核心知识，这6章内容分别为：DataFrame原理与常用操作、Spark SQL操作多种数据源、Parquet列式存储、Spark SQL内置函数与窗口函数、Spark SQL UDF与UDAF、Thrift Server；本书的最后部分，第8章Spark SQL综合应用案例归纳并综合运用了全部Spark SQL知识点，是深入理解Spark SQL的经典案例。本书可以使读者对Spark SQL有深入的理解，是Spark爱好者用来学习Spark SQL的理想教程，也是Spark开发工程师在开发过程中可随时查阅的案头手册。本书作者本书由王家林和段智华编写。预备知识在学习本书之前读者需要熟悉基本的Linux命令及Java、Scala语言，掌握基本的Spark知识架构，能够搭建Spark集群环境。致谢在本书编写的过程中，作者参考了很多网络上的书籍和博客，在此谢谢各位作者，正是你们的无私奉献，才推动了Spark技术的快速发展。特别感谢“小小”同学为本书的编写提供的各种协调和热心帮助。由于笔者能力有限，书中难免存在错误或表达不准确的内容，恳请大家批评指正，希望大家一起努力使Spark技术在大数据计算领域里推广开来。作者2017.9

SPARK SQL大数据实例开发教程

库存： {{selectedSku?.stock}} 库存充足

上架到店铺