您好,欢迎来到聚文网。 登录 免费注册
Python数据分析 活用Pandas库

Python数据分析 活用Pandas库

  • 字数: 490000
  • 装帧: 平装
  • 出版社: 人民邮电出版社
  • 作者: (美)丹尼尔·陈(Daniel Y.Chen)
  • 出版日期: 2020-01-01
  • 商品条码: 9787115529114
  • 版次: 1
  • 开本: 16开
  • 页数: 312
  • 出版年份: 2020
定价:¥89 销售价:登录后查看价格  ¥{{selectedSku?.salePrice}} 
库存: {{selectedSku?.stock}} 库存充足
{{item.title}}:
{{its.name}}
精选
编辑推荐
Python强大易用,是数据处理和数据分析利器,而众多库的加持令其如虎添翼。Pandas就是其中一个非常流行的开源库,它可以确保数据的准确性,将数据可视化,还可以高效地操作大型数据集。借助它,Python可以快速地自动化和执行几乎任何数据分析任务。 本书细致讲解了Pandas的基础知识和常见用法,通过简单的实例展示了如何使用Pandas解决复杂的现实问题,以及如何利用matplotlib、seaborn、statsmodels和sklearn等库辅助进行Python数据分析,涵盖了数据处理、数据可视化、数据建模等内容。此外,本书还简单介绍了Python数据分析生态系统。 亚马逊读者评论 “这本书比我读过的其他介绍Pandas的书好很多,别的书也不错,但这本书更简明扼要。作者先介绍方法,接着给出示例,然后继续推进,非常适合学习。” “这本书令人耳目一新,讲解没有陷入无关紧要的细节和冗长的理论,而是直截了当地介绍如何精通Pandas(以及seaborn和其他库),还涵盖了数据科学的基础(整理数据、可视化等)。” “我读过许多介绍Pandas的书、博客和论文,这本书格外出众,它讲解清晰,示例丰富,讨论也很有层次:先整体概述,再逐渐深入······一些困扰了我很久的问题在这本书中得到了解答。”
内容简介
本书是Python数据分析入门书,每个概念都通过简单实例来阐述,便于读者理解与上手。具体内容包括:Python及Pandas基础知识,加载和查看数据集,Pandas的DataFrame对象和Series对象,使用matplotlib、seaborn和Pandas提供的绘图方法为探索性数据分析作图,连接与合并数据集,处理缺失数据,清理数据,转换数据类型,处理字符串,应用函数,分组操作,拟合及评估模型,正则化方法与聚类技术,等等。
作者简介
丹尼尔·陈(Daniel Y. Chen),Lander Analytics公司数据科学家,Software Carpentry和Data Carpentry的讲师和课程维护人员,DataCamp的课程讲师。目前他在弗尼吉亚理工大学社会与决策分析实验室从事政策决策数据分析。
目录
献词iii
序iv
前言v
致谢xi
关于作者xiv
第一部分简介1
第1章PandasDataFrame基础知识2
1.1简介2
1.2加载数据集3
1.3查看列、行、单元格5
1.3.1取列子集6
1.3.2取行子集7
1.3.3混合11
1.4分组和聚合计算16
1.4.1分组方式17
1.4.2分组频率计数21
1.5基本绘图21
1.6小结22
第2章Pandas数据结构23
2.1简介23
2.2创建数据24
2.2.1创建Series24
2.2.2创建DataFrame25
2.3Series26
2.3.1类似于ndarray的Series27
2.3.2布尔子集:Series29
2.3.3操作自动对齐和向量化(广播)31
2.4DataFrame34
2.4.1布尔子集:DataFrame34
2.4.2操作自动对齐和向量化(广播)35
2.5更改Series和DataFrame36
2.5.1添加列36
2.5.2直接更改列37
2.5.3删除值39
2.6导出和导入数据40
2.6.1保存数据40
2.6.2CSV42
2.6.3Excel42
2.6.4feather文件格式43
2.6.5其他数据输出格式43
2.7小结44
第3章绘图入门45
3.1简介45
3.2matplotlib46
3.3使用matplotlib绘制统计图51
3.3.1单变量52
3.3.2双变量53
3.3.3多变量数据54
3.4seaborn56
3.4.1单变量56
3.4.2双变量数据59
3.4.3多变量数据67
3.5Pandas对象75
3.5.1直方图75
3.5.2密度图76
3.5.3散点图77
3.5.4蜂巢图77
3.5.5箱线图79
3.6seaborn主题和样式79
3.7小结81
第二部分数据处理83
第4章数据组合84
4.1简介84
4.2整理数据84
4.3连接85
4.3.1添加行85
4.3.2添加列89
4.3.3不同索引下的连接操作90
4.4合并多个数据集93
4.4.1一对一合并94
4.4.2多对一合并95
4.4.3多对多合并95
4.5小结97
第5章缺失数据98
5.1简介98
5.2何为NaN值98
5.3缺失值从何而来100
5.3.1加载数据100
5.3.2合并数据101
5.3.3用户输入值103
5.3.4重建索引103
5.4处理缺失数据105
5.4.1查找和统计缺失数据105
5.4.2清理缺失数据106
5.4.3缺失值计算109
5.5小结110
第6章整理数据111
6.1简介111
6.2包含值而非变量的列112
6.2.1固定一列112
6.2.2固定多列114
6.3包含多个变量的列115
6.3.1单独拆分和添加列(简单方法)116
6.3.2在单个步骤中进行拆分和组合(简单方法)118
6.3.3在单个步骤中进行拆分和组合(复杂方法)118
6.4行与列中的变量119
6.5一张表中多个观测单元(归一化)121
6.6跨多张表的观测单元123
6.6.1使用循环加载多个文件125
6.6.2使用列表推导加载多个文件126
6.7小结127
第三部分数据整理129
第7章数据类型130
7.1简介130
7.2数据类型130
7.3类型转换131
7.3.1转换为字符串对象131
7.3.2转换为数值类型132
7.4分类数据136
7.4.1转换为category类型137
7.4.2操作分类数据137
7.5小结138
第8章字符串和文本数据139
8.1简介139
8.2字符串139
8.2.1取子串和字符串切片139
8.2.2获取字符串的最后一个字符141
8.3字符串方法143
8.4更多字符串方法144
8.4.1join方法144
8.4.2splitlines方法144
8.5字符串格式化145
8.5.1自定义字符串格式146
8.5.2格式化字符串146
8.5.3格式化数字146
8.5.4Cprintf格式化风格147
8.5.5Python3.6+中的格式化字符串148
8.6正则表达式148
8.6.1匹配模式149
8.6.2查找模式152
8.6.3模式替代152
8.6.4编译模式153
8.7regex库154
8.8小结154
第9章应用155
9.1简介155
9.2函数155
9.3使用函数156
9.3.1Series的apply方法157
9.3.2DataFrame的apply方法158
9.4apply高级用法160
9.4.1按列应用162
9.4.2按行应用164
9.5向量化函数166
9.5.1使用NumPy167
9.5.2使用numba168
9.6lambda函数168
9.7小结170
第10章分组操作:分割-应用-组合171
10.1简介171
10.2聚合171
10.2.1基本的单变量分组聚合172
10.2.2Pandas内置的聚合方法173
10.2.3聚合函数174
10.2.4同时传入多个函数176
10.2.5在agg/aggregate中使用字典177
10.3转换178
10.4过滤器182
10.5pandas.core.groupby.DataFrameGroupBy对象183
10.5.1分组183
10.5.2涉及多个变量的分组计算184
10.5.3选择分组184
10.5.4遍历分组184
10.5.5多个分组186
10.5.6平铺结果187
10.6使用多重索引188
10.7小结191
第11章datetime数据类型192
11.1简介192
11.2Python的datatime对象192
11.3转换为datetime193
11.4加载包含日期的数据196
11.5提取日期的各个部分196
11.6日期运算和Timedelta198
11.7datetime方法200
11.8获取股票数据202
11.9基于日期取数据子集203
11.9.1DatetimeIndex对象203
11.9.2TimedeltaIndex对象204
11.10日期范围205
11.10.1频率206
11.10.2偏移量207
11.11移动207
11.12重采样213
11.13时区214
11.14小结215
第四部分数据建模217
第12章线性模型218
12.1简介218
12.2简单线性回归218
12.2.1使用统计模型库218
12.2.2使用sklearn库220
12.3多元回归222
12.3.1使用statsmodels库222
12.3.2使用statsmodels和分类变量222
12.3.3使用sklearn库224
12.3.4使用sklearn和分类变量225
12.4保留sklearn的索引标签226
12.5小结226
第13章广义线性模型227
13.1简介227
13.2逻辑回归227
13.2.1使用statsmodels229
13.2.2使用sklearn230
13.3泊松回归232
13.3.1使用statsmodels232
3.3.2负二项回归233
13.4更多GLM234
13.5生存分析235
13.6小结238
第14章模型诊断239
14.1简介239
14.2残差239
14.3比较多个模型243
14.3.1比较线性模型243
14.3.2比较GLM246
14.4k折交叉验证248
14.5小结251
第15章正则化252
15.1简介252
15.2何为正则化252
15.3LASSO回归254
15.4岭回归255
15.5弹性网256
15.6交叉验证258
15.7小结260
第16章聚类261
16.1简介261
16.2k均值聚类261
16.3层次聚类267
16.3.1最长距离法267
16.3.2最短距离法267
16.3.3平均距离法268
16.3.4重心法268
16.3.5手动设置阈值269
16.4小结270
第五部分终章271
第17章Pandas之外272
17.1科学计算栈272
17.2性能272
17.2.1测试代码运行时间272
17.2.2分析代码274
17.3规模更大、速度更快274
第18章写给自学者275
18.1不可闭门造车275
18.2本地聚会275
18.3参加会议275
18.4互联网276
18.5播客276
18.6小结276
第六部分附录
附录A安装278
附录B命令行280
附录C项目模板282
附录DPython代码编写工具283
附录E工作目录285
附录F环境287
附录G安装包289
附录H导入库291
附录I列表293
附录J元组294
附录K字典295
附录L切片297
附录M循环299
附录N推导式300
附录O函数301
附录P范围和生成器305
附录Q多重赋值307
附录RNumPyndarray309
附录S类311
附录T变形器odo313
版权声明314

蜀ICP备2024047804号

Copyright 版权所有 © jvwen.com 聚文网