您好,欢迎来到聚文网。
登录
免费注册
网站首页
|
联系客服
|
搜索
热搜:
购物车
0
我的订单
商品分类
首页
幼儿
文学
社科
教辅
生活
销量榜
Python网络爬虫实例教程 视频讲解版
字数: 268000
装帧: 平装
出版社: 人民邮电出版社
作者: 齐文光
出版日期: 2018-08-01
商品条码: 9787115484659
版次: 1
开本: 16开
页数: 206
出版年份: 2018
定价:
¥49.8
销售价:
登录后查看价格
¥{{selectedSku?.salePrice}}
库存:
{{selectedSku?.stock}}
库存充足
{{item.title}}:
{{its.name}}
加入购物车
立即购买
收藏
上架到店铺
×
Close
上架到店铺
{{shop.name}}
点此去绑定店铺
精选
¥5.83
世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版
¥5.39
正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册
¥8.58
简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版
¥5.83
世界文学名著全49册中小学生青少年课外书籍文学小说批发正版
¥4.95
全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷
¥8.69
父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册
¥24.2
好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册
¥7.15
幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书
¥11.55
用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书
¥19.8
少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版
¥64
科学真好玩
¥12.7
一年级下4册·读读童谣和儿歌
¥38.4
原生态新生代(传统木版年画的当代传承国际研讨会论文集)
¥11.14
法国经典中篇小说
¥11.32
上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)
¥22.05
猫的摇篮(精)
¥30.72
幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书
¥24.94
旧时风物(精)
¥12.04
三希堂三帖/墨林珍赏
¥6.88
寒山子庞居士诗帖/墨林珍赏
¥6.88
苕溪帖/墨林珍赏
¥6.88
楷书王维诗卷/墨林珍赏
¥9.46
兰亭序/墨林珍赏
¥7.74
祭侄文稿/墨林珍赏
¥7.74
蜀素帖/墨林珍赏
¥12.04
真草千字文/墨林珍赏
¥114.4
进宴仪轨(精)/中国古代舞乐域外图书
¥24.94
舞蹈音乐的基础理论与应用
编辑推荐
内容简介
本书共16章,详细介绍爬虫的基础知识、编写简单定向爬虫和使用Scrapy爬虫框架。~3章介绍爬虫的基础知识和网页解析基础;第4~8章用实例演示编写定向爬虫、模拟登录、应对反爬虫和爬取动态网页等;第9章介绍Scrapy基础知识;0、1章讲解两个很常用的Scrapy爬虫类:2、3章讲解Scrapy应对反爬虫、向网站提交数据和登录网站的方法:4章用实例演示存储数据到数据库:5章简单讲解爬虫去重、分布式爬虫编写和爬虫部署:6章为综合实例,并且简单介绍爬取数据的分析。本书运用大量实例为读者演示编写爬虫的技巧,每一章都包含本章小结及要求,以帮助读者巩固所学内容。本书面向对爬虫技术感兴趣的读者,介绍使用Python语言编写爬虫的各种技巧和方法。对希望深入学习Python编程的初学者,本书也很适合作为进阶读物。
作者简介
齐文光,原中国网通山东分公司数据中心工程师 爱好python编程,善于编写爬虫和利用python进行数据分析和可视化,对于机器学习和深度学习也有深入研究。
目录
第1章网络爬虫概述1
1.1认识网络爬虫1
1.1.1网络爬虫的含义1
1.1.2网络爬虫的主要类型2
1.1.3简单网络爬虫的架构3
1.1.4网络爬虫的应用场景3
1.2Python网络爬虫技术概况4
1.2.1Python中实现HTTP请求4
1.2.2Python中实现网页解析5
1.2.3Python爬虫框架6
1.3搭建开发环境7
1.3.1代码运行环境7
1.3.2开发编辑器8
1.4本章小结及要求11
第2章爬虫基础12
2.1认识HTTP请求12
2.1.1HTTP请求的含义12
2.1.2HTTP请求信息12
2.2爬虫基础——Requests库入门15
2.2.1Requests库的安装15
2.2.2Requests库的请求方法16
2.2.3Requests库的响应对象17
2.2.4响应状态码17
2.2.5定制请求头部18
2.2.6重定向与超时18
2.2.7传递URL参数19
2.3爬虫基础——Urllib库基础20
2.3.1Urllib库简介20
2.3.2发送GET请求20
2.3.3模拟浏览器发送GET请求21
2.3.4POST发送一个请求22
2.3.5URL解析23
2.4本章小结及要求24
第3章网页解析基础25
3.1网页解析概述25
3.1.1常用网页解析工具25
3.1.2HTML源码简介25
3.2XPath语法基础27
3.2.1Lxml库的安装27
3.2.2XPath语法基础——通过路径查找元素28
3.2.3通过属性查找元素30
3.2.4提取属性值31
3.2.5XPath的高级用法31
3.3抓取百度首页实例33
3.4BeautifulSoup库和正则表达式37
3.4.1BeautifulSoup简介38
3.4.2BeautifulSoup基本用法39
3.4.3BeautifulSoup标准选择器40
3.4.4正则表达式41
3.5本章小结及要求45
第4章基础爬虫实例46
4.1Q房网爬虫实例46
4.1.1网站页面分析46
4.1.2编写Q房网二手房房源爬虫代码47
4.1.3保存爬取到的信息50
4.2多层页面的爬取51
4.2.1爬取详情页面分析51
4.2.2编写爬取详情页面的代码52
4.3下载房源图片和实现多线程爬虫55
4.3.1下载房源图片55
4.3.2实现简单多线程爬虫56
4.4本章小结及要求59
第5章Requests模拟登录60
5.1使用Cookies登录网站60
5.1.1网站的保持登录机制60
5.1.2登录豆瓣网站61
5.2模拟登录网站63
5.2.1豆瓣网站的登录分析63
5.2.2Requests会话对象66
5.2.3编写Requests登录豆瓣网站的代码67
5.3验证码的处理68
5.3.1带验证码的网站登录分析68
5.3.2验证码的识别和处理70
5.3.3编写带验证码的豆瓣网站登录代码71
5.4本章小结及要求73
第6章认识和应对反爬虫74
6.1常用的网站反爬虫策略及应对措施74
6.1.1常用的网站反爬虫策略74
6.1.2应对网站反爬虫的措施75
6.2使用IP代理的方法76
6.2.1Requests中使用代理IP76
6.2.2获取免费代理IP77
6.3使用IP代理爬取微信文章78
6.3.1分析微信文章的搜索页面及其URL的构造特点78
6.3.2编写爬虫代码80
6.4本章小结及要求82
第7章动态网页的抓取84
7.1动态网页及其爬取方法84
7.1.1动态网页的含义84
7.1.2动态网页的爬取办法85
7.2动态网页的爬取技巧86
7.2.1链家经纪人页面分析86
7.2.2链家经纪人爬虫实现88
7.3Selenium库的安装与使用90
7.3.1Selenium库的安装90
7.3.2chromedriver的安装和使用91
7.3.3Selenium的简单使用92
7.4爬取新浪微博网站95
7.4.1新浪微博网站爬取分析95
7.4.2新浪微博网站爬虫实现95
7.4.3爬虫的简单去重98
7.4.4使用Chrome浏览器的headless模式100
7.5本章小结及要求101
第8章动态网页与应对反爬虫综合实例102
8.1拉勾网网站分析102
8.1.1拉勾网网站页面初步分析102
8.1.2解析json数据和招聘岗位详情页分析105
8.2拉勾网爬虫实现107
8.2.1拉勾网爬虫的初步实现107
8.2.2拉勾网爬虫的进一步完善109
8.3探索拉勾网反爬虫机制110
8.4本章小结及要求113
第9章Scrapy爬虫框架基础114
9.1Scrapy爬虫框架简介与安装114
9.1.1Scrapy爬虫框架简介114
9.1.2Scrapy爬虫框架的安装114
9.2Scrapy目录结构和简单爬虫实例116
9.2.1Scrapy目录结构116
9.2.2百度爬虫实现119
9.2.3Scrapy选择器120
9.3Scrapy命令行工具、选择器、数据容器122
9.3.1Scrapy常用命令行工具122
9.3.2Scrapy选择器高级应用124
9.3.3Scrapy数据容器125
9.4本章小结及要求126
第10章BasicSpider类和图片下载127
10.1BasicSpider类127
10.1.1Scrapy的爬虫类和模板127
10.1.2BasicSpider类简介128
10.2爬取我爱我家二手房房源数据129
10.2.1我爱我家网站分析129
10.2.2我爱我家爬虫项目实现131
10.2.3数据的快捷输出133
10.3图片下载和翻页的另一种方法134
10.3.1Scrapy图片下载简介134
10.3.2我爱我家房源图片下载134
10.3.3翻页的另一种方法135
10.4本章小结及要求137
第11章CrawlSpider类和Scrapy框架概览138
11.1CrawlSpider类简介138
11.2房天下二手房房源爬虫139
11.2.1房天下网站分析139
11.2.2房天下二手房房源爬虫实现140
11.3Scrapy架构143
11.3.1Scrapy架构概览143
11.3.2Scrapy中的数据流144
11.4本章小结及要求145
第12章Scrapy应对反爬虫策略146
12.1常用的反爬虫设置146
12.2下载器中间件148
12.2.1下载器中间件简介148
12.2.2激活下载器中间件149
12.2.3编写下载器中间件150
12.3设置随机用户代理和IP代理150
12.3.1设置随机用户代理150
12.3.2设置随机IP代理152
12.4本章小结及要求153
第13章登录网站和提交数据154
13.1Cookies登录网站的高级技巧154
13.1.1Request对象154
13.1.2利用Cookies登录网站的技巧155
13.2使用FormRequest向网站提交数据157
13.2.1FormRequest类157
13.2.2爬取Q房网二手房房源158
13.3Scrapy登录网站的高级技巧159
13.3.1FormRequest.from_response()方法159
13.3.2利用Scrapy登录网站的技巧160
13.4本章小结及要求161
第14章存储数据到数据库162
14.1MongoDB的安装与使用162
14.1.1Scrapy存储数据与MongoDB简介162
14.1.2MongoDB的安装162
14.1.3MongoDB的配置与启动163
14.1.4MongoDB的可视化管理164
14.2爬取链家经纪人成交数据165
14.2.1链家移动页面分析165
14.2.2定义Items、编写spider168
14.3设置链家网爬虫pipeline171
14.3.1在Python中操作MongoDB171
14.3.2配置pipeline174
14.3.3在settings中启用pipeline175
14.4存储数据到MySQL175
14.4.1使用pymysql操作MySQL数据库175
14.4.2把链家经纪人成交数据存储到MySQL数据库176
14.5本章小结及要求177
第15章分布式爬虫与爬虫部署178
15.1分布式爬虫原理与Redis的安装178
15.1.1Scrapy分布式爬虫原理178
15.1.2Redis的安装179
15.2scrapy_redis实现分布式爬虫181
15.2.1scrapy_redis库181
15.2.2分布式爬虫的部署和存储182
15.3使用Scrapyd部署爬虫183
15.3.1Scrapyd简介和安装183
15.3.2使用scrapyd-client部署爬虫185
15.4Scrapy爬虫去重187
15.4.1Scrapy去重方案187
15.4.2BloomFilter过滤188
15.5本章小结及要求189
第16章项目实战——知乎用户爬虫及数据分析190
16.1知乎用户爬虫——知乎网站分析190
16.1.1知乎网站初步分析190
16.1.2知乎网站进一步分析192
16.2知乎爬虫的实现194
16.2.1编写知乎爬虫代码194
16.2.2使用MongoDB和scrapy_redis搭建分布式爬虫196
16.3爬虫数据分析197
16.3.1爬虫数据分析工具197
16.3.2知乎用户数据加载199
16.3.3爬虫数据简单分析200
16.4本章小结及要求206
×
Close
添加到书单
加载中...
点此新建书单
×
Close
新建书单
标题:
简介:
蜀ICP备2024047804号
Copyright 版权所有 © jvwen.com 聚文网