您好,欢迎来到聚文网。
登录
免费注册
网站首页
|
搜索
热搜:
磁力片
|
购物车
0
我的订单
商品分类
首页
幼儿
文学
社科
教辅
生活
销量榜
Python和PySpark数据分析(数据科学与大数据技术)
字数: 606
出版社: 清华大学
作者: (加)乔纳森·里乌|责编:王军|译者:殷海英
商品条码: 9787302645368
版次: 1
开本: 16开
页数: 402
出版年份: 2023
印次: 1
定价:
¥118
销售价:
登录后查看价格
¥{{selectedSku?.salePrice}}
库存:
{{selectedSku?.stock}}
库存充足
{{item.title}}:
{{its.name}}
加入购物车
立即购买
加入书单
收藏
精选
¥5.83
世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版
¥5.39
正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册
¥8.58
简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版
¥5.83
世界文学名著全49册中小学生青少年课外书籍文学小说批发正版
¥4.95
全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷
¥8.69
父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册
¥24.2
好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册
¥7.15
幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书
¥11.55
用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书
¥19.8
少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版
¥64
科学真好玩
¥12.7
一年级下4册·读读童谣和儿歌
¥38.4
原生态新生代(传统木版年画的当代传承国际研讨会论文集)
¥11.14
法国经典中篇小说
¥11.32
上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)
¥22.05
猫的摇篮(精)
¥30.72
幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书
¥24.94
旧时风物(精)
¥12.04
三希堂三帖/墨林珍赏
¥6.88
寒山子庞居士诗帖/墨林珍赏
¥6.88
苕溪帖/墨林珍赏
¥6.88
楷书王维诗卷/墨林珍赏
¥9.46
兰亭序/墨林珍赏
¥7.74
祭侄文稿/墨林珍赏
¥7.74
蜀素帖/墨林珍赏
¥12.04
真草千字文/墨林珍赏
¥114.4
进宴仪轨(精)/中国古代舞乐域外图书
¥24.94
舞蹈音乐的基础理论与应用
内容简介
Spark数据处理引擎是一 个惊人的分析工厂:输入原 始数据,输出洞察。 PySpark用基于Python的API 封装了Spark的核心引擎。 它有助于简化Spark陡峭的 学习曲线,并使这个强大的 工具可供任何在Python数据 生态系统中工作的人使用。 本书帮助你使用PySpark 解决数据科学的日常挑战。 你将学习如何跨多台机器扩 展处理能力,同时从任何来 源(无论是Hadoop集群、 云数据存储还是本地数据文 件)获取数据。一旦掌握了 基础知识,就可以通过构建 机器学习管道,并配合 Python、pandas和PySpark 代码,探索PySpark的全面 多功能特性。
作者简介
作为一家数据驱动软件公司的ML总监,Jonathan Rioux每天都在使用PySpark。他向数据科学家、数据工程师和精通数据的业务分析师讲授PySpark的用法。
目录
第1章 介绍 1.1 什么是PySpark 1.1.1 从头开始:什么是Spark 1.1.2 PySpark=Spark+Python 1.1.3 为什么选择PySpark 1.2 PySpark的工作原理 1.2.1 使用集群管理器进行物理规划 1.2.2 懒惰的主管成就工厂的高效 1.3 你将从本书学到什么 1.4 我们将如何开始 1.5 本章小结 第Ⅰ部分 介绍:PySpark的第一步 第2章 使用PySpark编写的第一个数据处理程序 2.1 设置pysparkshell 2.1.1 SparkSession入口点 2.1.2 配置PySpark的日志级别 2.2 映射程序 2.3 采集和探索:为数据转换奠定基础 2.3.1 用spark.read将数据读入数据帧 2.3.2 从结构到内容:使用show()探索数据帧 2.4 简单的列转换:将句子拆解为单词列表 2.4.1 使用select()选择特定的列 2.4.2 转换列:将字符串拆分为单词列表 2.4.3 重命名列:alias和withColumnRenamed 2.4.4 重塑数据:将list分解成行 2.4.5 处理单词:更改大小写并删除标点符号 2.5 筛选记录 2.6 本章小结 2.7 扩展练习 第3章 提交并扩展你的第一个PySpark程序 3.1 对记录进行分组:计算词频 3.2 使用orderBy对结果排序 3.3 保存数据帧中的数据 3.4 整合所有内容:计数 3.4.1 使用PySpark的导入约定简化依赖 3.4.2 通过方法链简化程序 3.5 使用spark-submit以批处理模式启动程序 3.6 本章未涉及的内容 3.7 扩展词频程序 3.8 本章小结 3.9 扩展练习 第4章 使用pyspark.sql分析表格数据 4.1 什么是表格数据 4.2 使用PySpark分析和处理表格数据 4.3 在PySpark中读取和评估带分隔符的数据 4.3.1 第一次使用专门处理CSV文件的SparkReader 4.3.2 自定义SparkReader对象来读取CSV数据文件 4.3.3 探索数据世界的轮廓 …… 第Ⅱ部分 进级:将你的想法转化为代码
×
Close
添加到书单
加载中...
点此新建书单
×
Close
新建书单
标题:
简介:
蜀ICP备2024047804号
Copyright 版权所有 © jvwen.com 聚文网