您好,欢迎来到聚文网。
登录
免费注册
网站首页
|
搜索
热搜:
磁力片
|
漫画
|
购物车
0
我的订单
商品分类
首页
幼儿
文学
社科
教辅
生活
销量榜
大数据爬取、清洗与可视化教程
字数: 518000
装帧: 平装
出版社: 电子工业出版社
出版日期: 2021-03-01
商品条码: 9787121407529
版次: 1
开本: 16开
页数: 308
出版年份: 2021
定价:
¥56
销售价:
登录后查看价格
¥{{selectedSku?.salePrice}}
库存:
{{selectedSku?.stock}}
库存充足
{{item.title}}:
{{its.name}}
加入购物车
立即购买
加入书单
收藏
精选
¥5.83
世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版
¥5.39
正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册
¥8.58
简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版
¥5.83
世界文学名著全49册中小学生青少年课外书籍文学小说批发正版
¥4.95
全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷
¥8.69
父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册
¥24.2
好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册
¥7.15
幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书
¥11.55
用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书
¥19.8
少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版
¥64
科学真好玩
¥12.7
一年级下4册·读读童谣和儿歌
¥38.4
原生态新生代(传统木版年画的当代传承国际研讨会论文集)
¥11.14
法国经典中篇小说
¥11.32
上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)
¥21.56
猫的摇篮(精)
¥30.72
幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书
¥24.94
旧时风物(精)
¥12.04
三希堂三帖/墨林珍赏
¥6.88
寒山子庞居士诗帖/墨林珍赏
¥6.88
苕溪帖/墨林珍赏
¥6.88
楷书王维诗卷/墨林珍赏
¥9.46
兰亭序/墨林珍赏
¥7.74
祭侄文稿/墨林珍赏
¥7.74
蜀素帖/墨林珍赏
¥12.04
真草千字文/墨林珍赏
¥114.4
进宴仪轨(精)/中国古代舞乐域外图书
¥24.94
舞蹈音乐的基础理论与应用
内容简介
本书通过实践操作介绍大数据爬取、清洗与可视化的具体实施方案,共10章,包括大数据爬取、清洗与可视化概述,爬虫概述,Requests库,BeautifulSoup爬虫,自动化测试工具Selenium,中型爬虫框架Scrapy,数据存储,数据清洗,Matplotlib可视化,Pyecharts可视化。书中的案例均经过实践验证,可以帮助读者深入理解数据信息在大数据行业中的重要应用。为方便复习和自学,各章均配备丰富的习题。本书可作为高等院校大数据相关专业的教材,也可作为有关专业技术人员的培训教材,同时可作为大数据分析爱好者及从事网络数据安全管理工作人员的参考书。
作者简介
贾宁,大连东软信息学院副教授,多年来一直从事大数据技术及应用、人工智能、深度学习/云计算等方面的科研和教学工作。
目录
第1章大数据爬取、清洗与可视化概述1
1.1爬虫概述1
1.1.1爬虫简介1
1.1.2常见爬虫分类和工具2
1.2数据清洗概述2
1.2.1数据清洗简介2
1.2.2常见数据清洗工具3
1.3可视化技术概述3
1.3.1数据可视化概述3
1.3.2常见可视化工具5
1.4相关网络技术简介5
1.4.1HTTP5
1.4.2HTML7
1.4.3XML10
1.4.4JSON13
1.4.5JavaScript14
1.4.6正则表达式17
1.5Python开发环境配置21
1.5.1在Windows中安装Python22
1.5.2在Linux中安装Python24
1.5.3Python集成开发环境26
1.5.4Python第三方库管理33
本章小结35
习题35
第2章爬虫概述36
2.1爬虫基础概述36
2.1.1爬虫概念36
2.1.2爬虫基本原理37
2.2爬虫规范39
2.2.1爬虫尺寸39
2.2.2Robots协议39
2.3爬虫通用结构43
2.3.1爬虫通用结构简介43
2.3.2爬虫基本工作流程43
2.3.3异常处理机制44
2.4爬虫技术46
2.4.1urllib3库46
2.4.2网页内容查看51
2.4.3XPath56
本章小结60
习题60
第3章Requests库62
3.1Requests库简介与安装62
3.1.1Requests库简介62
3.1.2Requests库安装62
3.2Requests库基本使用63
3.2.1Requests库的主要方法63
3.2.2发送基本请求66
3.2.3响应内容66
3.2.4访问异常处理方案67
3.3Requests库高级用法69
3.3.1定制请求头部69
3.3.2设置超时70
3.3.3传递参数70
3.3.4解析JSON72
3.4代理设置72
3.5模拟登录73
3.5.1保持登录机制73
3.5.2使用Cookies登录网站74
3.5.3登录流程分析77
3.5.4Requests会话对象78
3.5.5登录网站实例80
3.6资源下载80
3.7Requests库应用实例82
3.7.1具体功能分析82
3.7.2具体代码实现85
本章小结86
习题87
第4章BeautifulSoup爬虫88
4.1BeautifulSoup简介与安装88
4.1.1BeautifulSoup简介88
4.1.2BeautifulSoup4安装方法88
4.1.3BeautifulSoup解析器90
4.1.4BeautifulSoup初探92
4.2BeautifulSoup对象类型93
4.2.1Tag93
4.2.2NavigableString95
4.2.3BeautifulSoup96
4.2.4Comment96
4.3BeautifulSoup的遍历与搜索97
4.3.1遍历文档树97
4.3.2搜索文档树105
4.4BeautifulSoup应用实例110
4.4.1基于BeautifulSoup的独立数据爬取110
4.4.2融合正则表达式的数据爬取112
本章小结114
习题115
第5章自动化测试工具Selenium116
5.1Selenium简介与安装116
5.1.1Selenium简介116
5.1.2Selenium安装116
5.2Selenium基本用法120
5.2.1声明浏览器对象120
5.2.2访问页面120
5.3元素121
5.3.1定位元素121
5.3.2交互操作元素126
5.3.3动作链127
5.3.4获取元素属性128
5.4Selenium高级操作129
5.4.1执行JavaScript129
5.4.2前进、后退和刷新操作130
5.4.3等待操作130
5.4.4处理Cookies132
5.4.5处理异常133
5.5Selenium实例134
5.5.1具体功能分析134
5.5.2具体代码实现135
本章小结136
习题137
第6章中型爬虫框架Scrapy138
6.1Scrapy框架简介与安8
6.1.1Scrapy运行机制138
6.1.2Scrapy框架简介139
6.1.3Scrapy安装140
6.2Scrapy命令行工具141
6.2.1全局命令142
6.2.2Project-only命令144
6.3选择器146
6.3.1选择器简介147
6.3.2选择器基础147
6.3.3结合正则表达式151
6.3.4嵌套选择器152
6.4Scrapy项目开发152
6.4.1新建项目153
6.4.2定义Items153
6.4.3制作爬虫154
6.4.4爬取数据156
6.4.5使用Items160
6.5ItemPipeline161
6.5.1ItemPipeline简介161
6.5.2ItemPipeline应用162
6.6中间件164
6.6.1下载器中间件164
6.6.2爬虫中间件168
6.7Scrapy实例171
6.7.1具体功能分析171
6.7.2具体代码实现172
本章小结174
习题174
第7章数据存储176
7.1数据存储简介176
7.1.1现代数据存储的挑战176
7.1.2常用工具177
7.2文本文件存储179
7.2.1文本数据的读写179
7.2.2CSV数据的读写182
7.2.3Excel数据的读写187
7.2.4JSON对象的读写193
7.3MongoDB数据库197
7.3.1MongoDB简介197
7.3.2MongoDB安装198
7.3.3MongoDB数据库操作202
7.4数据存储实例207
7.4.1具体功能分析207
7.4.2具体代码实现208
本章小结210
习题210
第8章数据清洗212
8.1数据清洗概述212
8.1.1数据清洗原理212
8.1.2主要数据类型212
8.1.3常用工具213
8.2数据清洗方法215
8.2.1重复数据处理215
8.2.2缺失数据处理218
8.2.3异常数据处理224
8.2.4格式内容清洗226
8.2.5逻辑错误清洗227
8.3数据规整228
8.3.1字段拆分228
8.3.2数据分组229
8.3.3数据聚合232
8.3.4数据分割236
8.3.5数据合并238
8.4数据清洗实例244
8.4.1具体功能分析244
8.4.2具体代码实现245
本章小结247
习题247
第9章Matplotlib可视化249
9.1Matplotlib简介与安装249
9.1.1Matplotlib简介249
9.1.2Matplotlib安装250
9.2基础语法和常用设置251
9.2.1绘图流程251
9.2.2布局设置252
9.2.3画布创建255
9.2.4参数设置256
9.3基础图形绘制258
9.3.1折线图258
9.3.2直方图259
9.3.3饼状图260
9.3.4箱形图262
9.3.5散点图264
9.3.6三维图266
本章小结269
习题270
第10章Pyecharts可视化271
10.1Pyecharts简介与安装271
10.1.1Pyecharts简介271
10.1.2Pyecharts安装272
10.2公共属性设置272
10.2.1全局配置项272
10.2.2系列配置项275
10.3二维图形绘制276
10.3.1柱状图276
10.3.2折线图281
10.3.3面积图284
10.3.4涟漪散点图285
10.3.5饼状图286
10.3.6漏斗图290
10.4三维图形绘制292
10.4.1三维柱状图292
10.4.2三维散点图294
10.4.3三维地图296
10.5Pyecharts实例296
10.5.1具体功能分析296
10.5.2具体代码实现297
本章小结298
习题299
参考文献300
×
Close
添加到书单
加载中...
点此新建书单
×
Close
新建书单
标题:
简介:
蜀ICP备2024047804号
Copyright 版权所有 © jvwen.com 聚文网