您好,欢迎来到聚文网。 登录 免费注册
Python和PySpark数据分析(数据科学与大数据技术)

Python和PySpark数据分析(数据科学与大数据技术)

  • 字数: 606
  • 出版社: 清华大学
  • 作者: (加)乔纳森·里乌|责编:王军|译者:殷海英
  • 商品条码: 9787302645368
  • 版次: 1
  • 开本: 16开
  • 页数: 402
  • 出版年份: 2023
  • 印次: 1
定价:¥118 销售价:登录后查看价格  ¥{{selectedSku?.salePrice}} 
库存: {{selectedSku?.stock}} 库存充足
{{item.title}}:
{{its.name}}
精选
内容简介
Spark数据处理引擎是一 个惊人的分析工厂:输入原 始数据,输出洞察。 PySpark用基于Python的API 封装了Spark的核心引擎。 它有助于简化Spark陡峭的 学习曲线,并使这个强大的 工具可供任何在Python数据 生态系统中工作的人使用。 本书帮助你使用PySpark 解决数据科学的日常挑战。 你将学习如何跨多台机器扩 展处理能力,同时从任何来 源(无论是Hadoop集群、 云数据存储还是本地数据文 件)获取数据。一旦掌握了 基础知识,就可以通过构建 机器学习管道,并配合 Python、pandas和PySpark 代码,探索PySpark的全面 多功能特性。
作者简介
  作为一家数据驱动软件公司的ML总监,Jonathan Rioux每天都在使用PySpark。他向数据科学家、数据工程师和精通数据的业务分析师讲授PySpark的用法。
目录
第1章 介绍 1.1 什么是PySpark 1.1.1 从头开始:什么是Spark 1.1.2 PySpark=Spark+Python 1.1.3 为什么选择PySpark 1.2 PySpark的工作原理 1.2.1 使用集群管理器进行物理规划 1.2.2 懒惰的主管成就工厂的高效 1.3 你将从本书学到什么 1.4 我们将如何开始 1.5 本章小结 第Ⅰ部分 介绍:PySpark的第一步 第2章 使用PySpark编写的第一个数据处理程序 2.1 设置pysparkshell 2.1.1 SparkSession入口点 2.1.2 配置PySpark的日志级别 2.2 映射程序 2.3 采集和探索:为数据转换奠定基础 2.3.1 用spark.read将数据读入数据帧 2.3.2 从结构到内容:使用show()探索数据帧 2.4 简单的列转换:将句子拆解为单词列表 2.4.1 使用select()选择特定的列 2.4.2 转换列:将字符串拆分为单词列表 2.4.3 重命名列:alias和withColumnRenamed 2.4.4 重塑数据:将list分解成行 2.4.5 处理单词:更改大小写并删除标点符号 2.5 筛选记录 2.6 本章小结 2.7 扩展练习 第3章 提交并扩展你的第一个PySpark程序 3.1 对记录进行分组:计算词频 3.2 使用orderBy对结果排序 3.3 保存数据帧中的数据 3.4 整合所有内容:计数 3.4.1 使用PySpark的导入约定简化依赖 3.4.2 通过方法链简化程序 3.5 使用spark-submit以批处理模式启动程序 3.6 本章未涉及的内容 3.7 扩展词频程序 3.8 本章小结 3.9 扩展练习 第4章 使用pyspark.sql分析表格数据 4.1 什么是表格数据 4.2 使用PySpark分析和处理表格数据 4.3 在PySpark中读取和评估带分隔符的数据 4.3.1 第一次使用专门处理CSV文件的SparkReader 4.3.2 自定义SparkReader对象来读取CSV数据文件 4.3.3 探索数据世界的轮廓 …… 第Ⅱ部分 进级:将你的想法转化为代码

蜀ICP备2024047804号

Copyright 版权所有 © jvwen.com 聚文网