您好,欢迎来到聚文网。 登录 免费注册
Spark大数据分析与应用(Python版)/大数据技术与应用丛书

Spark大数据分析与应用(Python版)/大数据技术与应用丛书

  • 字数: 337
  • 出版社: 清华大学
  • 作者: 编者:黑马程序员|
  • 商品条码: 9787302681052
  • 适读年龄: 12+
  • 版次: 1
  • 开本: 16开
  • 页数: 223
  • 出版年份: 2025
  • 印次: 1
定价:¥48 销售价:登录后查看价格  ¥{{selectedSku?.salePrice}} 
库存: {{selectedSku?.stock}} 库存充足
{{item.title}}:
{{its.name}}
精选
内容简介
本书以Spark 3.x和 Python 3.x为主线,全面介 绍了Spark及其生态体系中 常用大数据项目的安装和使 用。全书共8章,分别讲解 了Spark基础知识、Spark部 署、Spark RDD、Spark SQL、Spark Streaming、 Kafka、Structured Streaming和Spark MLlib, 并在最后完整开发了一个在 线教育学生学习情况分析系 统,帮助读者巩固前面所学 的内容。 本书附有配套视频、教 学PPT、教学设计、测试题 等资源,同时,为了帮助初 学者更好地学习本书中的内 容,还提供了在线答疑,欢 迎读者关注。 本书可以作为高等院校 数据科学与大数据技术及相 关专业的教材,也适合大数 据开发初学者、大数据分析 与挖掘的从业者阅读。
目录
第1章 Spark基础 1.1 初识Spark 1.1.1 Spark概述 1.1.2 Spark的特点 1.1.3 Spark应用场景 1.1.4 Spark与MapReduce的区别 1.2 Spark基本架构及运行流程 1.2.1 基本概念 1.2.2 Spark基本架构 1.2.3 Spark运行流程 1.3 Spark的部署模式 1.4 部署Spark 1.4.1 基于Local模式部署Spark 1.4.2 基于Standalone模式部署Spark 1.4.3 基于High Availability模式部署Spark 1.4.4 基于Spark on YARN模式部署Spark 1.5 Spark初体验 1.6 PySpark的使用 1.7 PyCharm开发Spark程序 1.8 本章小结 1.9 课后习题 第2章 Spark RDD弹性分布式数据集 2.1 RDD简介 2.2 RDD的创建 2.2.1 基于文件创建RDD 2.2.2 基于数据集合创建RDD 2.3 RDD的处理过程 2.3.1 转换算子 2.3.2 行动算子 2.4 RDD的分区 2.5 RDD的依赖关系 2.6 RDD机制 2.6.1 持久化机制 2.6.2 容错机制 2.7 Spark的任务调度 2.7.1 DAG的概念 2.7.2 RDD在Spark中的运行流程 2.8 本章小结 2.9 课后习题 第3章 Spark SQL结构化数据处理模块 3.1 Spark SQL基础知识 3.1.1 Spark SQL简介 3.1.2 Spark SQL架构 3.2 DataFrame基础知识 3.2.1 DataFrame简介 3.2.2 DataFrame的创建 3.2.3 DataFrame的常用操作 3.2.4 DataFrame的函数操作 3.3 RDD转换为DataFrame 3.3.1 反射机制推断Schema 3.3.2 编程方式定义Schema 3.4 Spark SQL操作数据源 3.4.1 Spark SQL操作MySQL 3.4.2 Spark SQL操作Hive 3.5 本章小结 3.6 课后习题 第4章 Spark Streaming实时计算框架 4.1 实时计算概述 4.2 Spark Streaming概述 4.2.1 Spark Streaming简介 4.2.2 Spark Streaming的工作原理 4.3 Spark Streaming的DStream 4.4 Spark Streaming的编程模型 4.5 Spark Streaming的API操作 4.5.1 输入操作 4.5.2 转换操作 4.5.3 输出操作 4.5.4 窗口操作 4.5.5 案例——电商网站实时热门品类统计 4.6 本章小结 4.7 课后习题 第5章 Kafka分布式发布订阅消息系统 5.1 消息队列简介 5.2 Kafka简介 5.3 Kafka工作原理 5.3.1 Kafka的基本架构 5.3.2 Kafka工作流程 5.4 搭建Kafka集群 5.5 Kafka的基本操作 5.5.1 Kafka的 Shell操作 5.5.2 Kafka的 Python API操作 5.6 案例——实时单词计数 5.7 本章小结 5.8 课后习题 第6章 Structured Streaming流计算引擎 6.1 Spark Streaming的不足 6.2 Structured Streaming概述 6.2.1 Structured Streaming简介 6.2.2 Structured Streaming编程模型 6.3 Structured Streaming的API操作 6.3.1 输入操作 6.3.2 转换操作 6.3.3 输出操作 6.4 时间和窗口操作 6.4.1 时间的分类 6.4.2 窗口操作 6.5 案例——物联网设备数据分析 6.5.1 准备数据 6.5.2 分析数据 6.6 本章小结 6.7 课后习题 第7章 Spark MLlib机器学习库 7.1 初识机器学习 7.1.1 什么是机器学习 7.1.2 机器学习的应用 7.2 Spark MLlib概述 7.2.1 Spark MLlib简介 7.2.2 Spark MLlib工作流程 7.3 数据类型 7.4 Spark MLlib基本统计 7.4.1 摘要统计 7.4.2 相关统计 7.4.3 分层抽样 7.5 分类 7.5.1 线性支持向量机 7.5.2 逻辑回归 7.6 案例——构建电影推荐系统 7.6.1 案例分析 7.6.2 案例实现 7.7 本章小结 7.8 课后习题 第8章 综合案例——在线教育学生学习情况分析系统 8.1 系统概述 8.1.1 系统背景介绍 8.1.2 系统流程分析 8.2 Redis的安装和启动 8.3 模块开发——构建项目结构 8.4 模块开发——在线教育数据的生成 8.4.1 模拟生成数据 8.4.2 向Kafka发送数据 8.5 模块开发——实时分析学生答题情况 8.6 模块开发——实时推荐题目 8.7 模块开发——离线分析学生答题情况 8.8 模块开发——数据可视化 8.8.1 安装、启动与配置FineBI 8.8.2 实现数据可视化 8.9 本章小结

蜀ICP备2024047804号

Copyright 版权所有 © jvwen.com 聚文网