您好,欢迎来到聚文网。 登录 免费注册
Python大数据分析从入门到精通

Python大数据分析从入门到精通

  • 字数: 454000
  • 装帧: 平装
  • 出版社: 北京大学出版社
  • 作者: 兰一杰
  • 出版日期: 2020-09-01
  • 商品条码: 9787301313558
  • 版次: 1
  • 开本: 16开
  • 页数: 320
  • 出版年份: 2020
定价:¥79 销售价:登录后查看价格  ¥{{selectedSku?.salePrice}} 
库存: {{selectedSku?.stock}} 库存充足
{{item.title}}:
{{its.name}}
精选
编辑推荐
1.理论与实践相结合:先对功能模块进行理论讲解,然后使用代码进行演示说明,由浅入深层层推进,易学易懂; 2.技术的整合性强:对大数据平台的各项功能模块进行集成使用,以实现对不同需求使用合理技术进行处理; 3.体系的完备性好:大数据平台中数据的导入、分析、挖掘、可视化等均使用Python处理,系统学习项目开发的全流程;
内容简介
本书结合Python在数据分析领域的特点,介绍如何在数据平台上集成使用Python。本书内容分为3大部分。第1部分(第1~3章)为搭建开发环境和导入测试数据;第2部分(第4~12章)为Python对HDFS、Hive、Pig、HBase、Spark的操作,主要是对常用API的说明;第3部分(第13~16章)是在前面章节的基础上,介绍如何进行数据的分析、挖掘、可视化等内容。本书不仅阐述了Python在大数据平台上的应用技巧,而且关于大数据平台管理和操作的介绍说明贯穿全书,因此对于希望学习大数据知识的读者,本书同样非常适合。
作者简介
兰一杰,资深软件工程师、项目经理,对Python大数据、人工智能、深度学习等有深入研究并能灵活整合运用。多年从事通过Python实施自动化运维、主数据项目、大数据分析项目的开发工作,涉及国内各大房地产企业、金融企业、政府机关灯领域。
目录
第一章为什么选择用Python
1.1易于使用
1.2兼容Hadoop
1.3可扩展和灵活性
1.4良好的社区支持和开发环境
1.5在数据分析领域的优势
1.6总结
第二章大数据开发环境的搭建
2.1安装大数据集成环境HDP
2.2安装Spark环境(Windows)
2.3自行安装大数据开发环境
2.4总结
第三章构建分析数据
3.1分析数据的说明
3.2导入数据到HDPSandBox中
3.3导入自安装的环境中使用
3.4导入Windows的Spark中
3.5导入Northwind数据库
3.6总结
第四章Python对Hadoop的操作
4.1Snakebite的说明
4.2HDFS命令说明
4.3SnakebiteClient类的使用
4.4SnakebiteCLI的使用
4.5总结
第五章Python对Hive的操作
5.1Hive说明
5.2使用PyHive
5.3使用Python编写HiveUDF
5.4Impyla的使用
5.5HiveSQL调优方法
5.6总结
第六章Python对HBase的操作
6.1HBase说明
6.2HBaseShell命令
6.3HappyBase说明
6.4HappyBase的使用
6.5总结
第七章Python集成到Pig
7.1Pig说明
7.2PigLatin的使用
7.3PythonPig的整合
7.4总结
第八章PySparkShell应用
8.1操作步骤
8.2应用对象
8.3Spark核心模块
8.4SparkShell的使用
8.5PySparkShell的使用
8.6总结
第九章PySpark对RDD操作
9.1SparkRDD说明
9.2RDDAPI说明
9.3在API函数中使用Lambda表达式
9.4从HDFS中读取数据并以SequenceFile格式存储
9.5读取CSV文件处理并存储
9.6读取Json文件处理
9.7通过RDD计算圆周率
9.8查看RDD计算的状态
9.9总结
第十章PySpark对DataFrame的操作
10.1SparkDataFrame说明
10.2DataFrameAPI总述
10.3DataFrame数据结构API
10.4DataFrame数据处理API
10.5Postgresql和DataFrame
10.6CSV和DataFrame
10.7Json和DataFrame
10.8Numpy、Pandas和DataFrame
10.9RDD和DataFrame
10.10HDFS和DataFrame
10.11Hive和DataFrame
10.12HBase和DataFrame
10.13总结
第十一章PySpark对Streaming的操作
11.1SparkStreaming说明
11.2SparkStreamingAPI
11.3网络数据流
11.4文件数据流
11.5Kafka数据流
11.6Flume数据流
11.7QueueStream数据流
11.8使用StreamingListener监听数据流
11.9总结
第十二章PySparkSQL
12.1关于SparkSQL
12.2SparkSQL相关API
12.3SparkSQL使用步骤
12.4Postgresql和SparkSQL
12.5CSV和SparkSQL
12.6Json和SparkSQL
12.7HDFS和SparkSQL
12.8Hive和SparkSQL
12.9UDF和SparkSQL
12.10Streaming和SparkSQL
12.11SparkSQL优化
12.12总结
第十三章分析方法及构架的说明
13.1统计的概念和数据可视化
13.2数据分析方法的探讨
13.3开发构架说明
13.4总结整合说明
第十四章集成分析
14.1SQL窗口函数的说明
14.2HiveSQL分析
14.3SparkSQL分析
14.4HBaseSQL分析
14.5对接Numpy、Pandas的分析
14.6对接Blaze分析
14.7总结
第十五章数据挖掘
15.1关于机器学习
15.2PySpark机器学习包
15.3特征的抽取、转换和选择
15.4PySpark机器学习包的使用
15.5集成TensorFlow
15.6集成scikit-learn
15.7总结
第十六章数据可视化
16.1标签云
16.2Zeppelin的使用
16.3Mathplotlib的使用
16.4Superset的使用
16.5总结
附录

蜀ICP备2024047804号

Copyright 版权所有 © jvwen.com 聚文网