Python大数据分析从入门到精通--聚文网

精选

¥5.83

世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版

¥5.39

正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册

¥8.58

简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版

¥5.83

世界文学名著全49册中小学生青少年课外书籍文学小说批发正版

¥4.95

全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷

¥8.69

父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册

¥24.2

好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册

¥7.15

幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书

¥11.55

用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书

¥19.8

少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版

¥64

科学真好玩

¥12.7

一年级下4册·读读童谣和儿歌

¥38.4

原生态新生代(传统木版年画的当代传承国际研讨会论文集)

¥11.14

法国经典中篇小说

¥11.32

上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)

¥21.56

猫的摇篮(精)

¥30.72

幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书

旧时风物(精)

三希堂三帖/墨林珍赏

寒山子庞居士诗帖/墨林珍赏

苕溪帖/墨林珍赏

楷书王维诗卷/墨林珍赏

兰亭序/墨林珍赏

祭侄文稿/墨林珍赏

蜀素帖/墨林珍赏

真草千字文/墨林珍赏

进宴仪轨(精)/中国古代舞乐域外图书

舞蹈音乐的基础理论与应用

编辑推荐

1.理论与实践相结合：先对功能模块进行理论讲解，然后使用代码进行演示说明，由浅入深层层推进，易学易懂； 2.技术的整合性强：对大数据平台的各项功能模块进行集成使用，以实现对不同需求使用合理技术进行处理； 3.体系的完备性好：大数据平台中数据的导入、分析、挖掘、可视化等均使用Python处理，系统学习项目开发的全流程；

内容简介

本书结合Python在数据分析领域的特点，介绍如何在数据平台上集成使用Python。本书内容分为3大部分。第1部分(第1～3章)为搭建开发环境和导入测试数据；第2部分(第4~12章)为Python对HDFS、Hive、Pig、HBase、Spark的操作，主要是对常用API的说明；第3部分(第13～16章)是在前面章节的基础上，介绍如何进行数据的分析、挖掘、可视化等内容。本书不仅阐述了Python在大数据平台上的应用技巧，而且关于大数据平台管理和操作的介绍说明贯穿全书，因此对于希望学习大数据知识的读者，本书同样非常适合。

作者简介

兰一杰，资深软件工程师、项目经理，对Python大数据、人工智能、深度学习等有深入研究并能灵活整合运用。多年从事通过Python实施自动化运维、主数据项目、大数据分析项目的开发工作，涉及国内各大房地产企业、金融企业、政府机关灯领域。

第一章为什么选择用Python
1.1易于使用
1.2兼容Hadoop
1.3可扩展和灵活性
1.4良好的社区支持和开发环境
1.5在数据分析领域的优势
1.6总结
第二章大数据开发环境的搭建
2.1安装大数据集成环境HDP
2.2安装Spark环境（Windows）
2.3自行安装大数据开发环境
2.4总结
第三章构建分析数据
3.1分析数据的说明
3.2导入数据到HDPSandBox中
3.3导入自安装的环境中使用
3.4导入Windows的Spark中
3.5导入Northwind数据库
3.6总结
第四章Python对Hadoop的操作
4.1Snakebite的说明
4.2HDFS命令说明
4.3SnakebiteClient类的使用
4.4SnakebiteCLI的使用
4.5总结
第五章Python对Hive的操作
5.1Hive说明
5.2使用PyHive
5.3使用Python编写HiveUDF
5.4Impyla的使用
5.5HiveSQL调优方法
5.6总结
第六章Python对HBase的操作
6.1HBase说明
6.2HBaseShell命令
6.3HappyBase说明
6.4HappyBase的使用
6.5总结
第七章Python集成到Pig
7.1Pig说明
7.2PigLatin的使用
7.3PythonPig的整合
7.4总结
第八章PySparkShell应用
8.1操作步骤
8.2应用对象
8.3Spark核心模块
8.4SparkShell的使用
8.5PySparkShell的使用
8.6总结
第九章PySpark对RDD操作
9.1SparkRDD说明
9.2RDDAPI说明
9.3在API函数中使用Lambda表达式
9.4从HDFS中读取数据并以SequenceFile格式存储
9.5读取CSV文件处理并存储
9.6读取Json文件处理
9.7通过RDD计算圆周率
9.8查看RDD计算的状态
9.9总结
第十章PySpark对DataFrame的操作
10.1SparkDataFrame说明
10.2DataFrameAPI总述
10.3DataFrame数据结构API
10.4DataFrame数据处理API
10.5Postgresql和DataFrame
10.6CSV和DataFrame
10.7Json和DataFrame
10.8Numpy、Pandas和DataFrame
10.9RDD和DataFrame
10.10HDFS和DataFrame
10.11Hive和DataFrame
10.12HBase和DataFrame
10.13总结
第十一章PySpark对Streaming的操作
11.1SparkStreaming说明
11.2SparkStreamingAPI
11.3网络数据流
11.4文件数据流
11.5Kafka数据流
11.6Flume数据流
11.7QueueStream数据流
11.8使用StreamingListener监听数据流
11.9总结
第十二章PySparkSQL
12.1关于SparkSQL
12.2SparkSQL相关API
12.3SparkSQL使用步骤
12.4Postgresql和SparkSQL
12.5CSV和SparkSQL
12.6Json和SparkSQL
12.7HDFS和SparkSQL
12.8Hive和SparkSQL
12.9UDF和SparkSQL
12.10Streaming和SparkSQL
12.11SparkSQL优化
12.12总结
第十三章分析方法及构架的说明
13.1统计的概念和数据可视化
13.2数据分析方法的探讨
13.3开发构架说明
13.4总结整合说明
第十四章集成分析
14.1SQL窗口函数的说明
14.2HiveSQL分析
14.3SparkSQL分析
14.4HBaseSQL分析
14.5对接Numpy、Pandas的分析
14.6对接Blaze分析
14.7总结
第十五章数据挖掘
15.1关于机器学习
15.2PySpark机器学习包
15.3特征的抽取、转换和选择
15.4PySpark机器学习包的使用
15.5集成TensorFlow
15.6集成scikit-learn
15.7总结
第十六章数据可视化
16.1标签云
16.2Zeppelin的使用
16.3Mathplotlib的使用
16.4Superset的使用
16.5总结
附录

Python大数据分析从入门到精通

库存： {{selectedSku?.stock}} 库存充足