您好,欢迎来到聚文网。 登录 免费注册
精通Python网络爬虫

精通Python网络爬虫

系统讲解Python网络爬虫技术,知名技术专家
  • 装帧: 平装
  • 出版社: 机械工业出版社
  • 作者: 韦玮 著
  • 出版日期: 2017-03-01
  • 商品条码: 9787111562085
  • 版次: 1
  • 开本: 16开
  • 页数: 294
  • 出版年份: 2017
定价:¥69 销售价:登录后查看价格  ¥{{selectedSku?.salePrice}} 
库存: {{selectedSku?.stock}} 库存充足
{{item.title}}:
{{its.name}}
精选
内容简介
这是一本实战性的网络爬虫秘笈,不仅讲解了如何编写爬虫,而且还讲解了流行的网络爬虫的使用。全书分为4个部分:第壹部分对网络爬虫做了概要性的介绍,主要介绍了网络爬虫的常识和所涉及的技术概览;第二部分是本书的重点之一,详细讲解了网络爬虫的核心技术,包括网络爬虫的实现原理与实现技术、Urllib库和URLError库的异常处理、正则表达式与Cookie的使用、Fiddler的使用、爬虫的浏览器伪装技术、爬虫的定向抓取技术等;第三部分讲解了流行的爬虫框架Scrapy的使用、架构和不错应用,是目前关于Scrapy详细的讲解;第四部分是3个实战案例,讲解了博客爬虫、图片爬虫和模拟登陆爬虫的编写方法。
作者简介
韦玮,资历网络爬虫技术专家、大数据专家和软件开发工程师,从事大型软件开发与技术服务多年,现任重庆韬翔网络科技有限公司创始人兼CEO,国家专利发明人。精通Python技术,在Pyttlon网络爬虫、Python机器学、Python数据分析与挖掘、PythonWeb开发等多个领域都有丰富的实战经验。CSDN、51CTO、天善智能等科技类社区和媒体的特邀专家和讲师,输出了大量高质量的课程和文章,深受用户喜爱。
目录
前言
第一篇理论基础篇
第1章什么是网络爬虫3
1.1初识网络爬虫3
1.2为什么要学网络爬虫4
1.3网络爬虫的组成5
1.4网络爬虫的类型6
1.5爬虫扩展——聚焦爬虫7
1.6小结8
第2章网络爬虫技能总览9
2.1网络爬虫技能总览图9
2.2搜索引擎核心10
2.3用户爬虫的那些事儿11
2.4小结12
第二篇核心技术篇
第3章网络爬虫实现原理与实现技术15
3.1网络爬虫实现原理详解15
3.2爬行策略17
3.3网页更新策略18
3.4网页分析算法20
3.5身份识别21
3.6网络爬虫实现技术21
3.7实例——metaseeker22
3.8小结27
第4章Urllib库与URLError异常处理29
4.1什么是Urllib库29
4.2快速使用Urllib爬取网页30
4.3浏览器的模拟——Headers属性34
4.4超时设置37
4.5HTTP协议请求实战39
4.6代理服务器的设置44
4.7DebugLog实战45
4.8异常处理神器——URLError实战46
4.9小结51
第5章正则表达式与Cookie的使用52
5.1什么是正则表达式52
5.2正则表达式基础知识52
5.3正则表达式常见函数61
5.4常见实例解析64
5.5什么是Cookie66
5.6Cookiejar实战精析66
5.7小结71
第6章手写Python爬虫73
6.1图片爬虫实战73
6.2链接爬虫实战78
6.3糗事百科爬虫实战80
6.4微信爬虫实战82
6.5什么是多线程爬虫89
6.6多线程爬虫实战90
6.7小结98
第7章学会使用Fiddler99
7.1什么是Fiddler99
7.2爬虫与Fiddler的关系100
7.3Fiddler的基本原理与基本界面100
7.4Fiddler捕获会话功能102
7.5使用QuickExec命令行104
7.6Fiddler断点功能106
7.7Fiddler会话查找功能111
7.8Fiddler的其他功能111
7.9小结113
第8章爬虫的浏览器伪装技术114
8.1什么是浏览器伪装技术114
8.2浏览器伪装技术准备工作115
8.3爬虫的浏览器伪装技术实战117
8.4小结121
第9章爬虫的定向爬取技术122
9.1什么是爬虫的定向爬取技术122
9.2定向爬取的相关步骤与策略123
9.3定向爬取实战124
9.4小结130
第三篇框架实现篇
第10章了解Python爬虫框架133
10.1什么是Python爬虫框架133
10.2常见的Python爬虫框架133
10.3认识Scrapy框架134
10.4认识Crawley框架135
10.5认识Portia框架136
10.6认识newspaper框架138
10.7认识Python—goose框架139
10.8小结140
第11章爬虫利器——Scrapy安装与配置141
11.1在Windows7下安装及配置Scrapy实战详解141
11.2在Linux(Centos)下安装及配置Scrapy实战详解147
11.3在MAC下安装及配置Scrapy实战详解158
11.4小结161
第12章开启Scrapy爬虫项目之旅162
12.1认识Scrapy项目的目录结构162
12.2用Scrapy进行爬虫项目管理163
12.3常用工具命令166
12.4实战:Items的编写181
12.5实战:Spider的编写183
12.6XPath基础187
12.7Spider类参数传递188
12.8用XMLFeedSpider来分析XML源191
12.9学会使用CSVFeedSpider197
12.10Scrapy爬虫多开技能200
12.11避免被禁止206
12.12小结212
第13章Scrapy核心架构214
13.1初识Scrapy架构214
13.2常用的Scrapy组件详解215
13.3Scrapy工作流217
13.4小结219
第14章Scrapy中文输出与存储220
14.1Scrapy的中文输出220
14.2Scrapy的中文存储223
14.3输出中文到JSON文件225
14.4小结230
第15章编写自动爬取网页的爬虫231
15.1实战:items的编写231
15.2实战:pipelines的编写233
15.3实战:settings的编写234
15.4自动爬虫编写实战234
15.5调试与运行239
15.6小结242
第16章CrawlSpider243
16.1初识CrawlSpider243
16.2链接提取器244
16.3实战:CrawlSpider实例245
16.4小结249
第17章Scrapy高级应用250
17.1如何在Python3中操作数据库250
17.2爬取内容写进MySQL254
17.3小结259
第四篇项目实战篇
第18章博客类爬虫项目263
18.1博客类爬虫项目功能分析263
18.2博客类爬虫项目实现思路264
18.3博客类爬虫项目编写实战264
18.4调试与运行274
18.5小结275
第19章图片类爬虫项目276
19.1图片类爬虫项目功能分析276
19.2图片类爬虫项目实现思路277
19.3图片类爬虫项目编写实战277
19.4调试与运行281
19.5小结282
第20章模拟登录爬虫项目283
20.1模拟登录爬虫项目功能分析283
20.2模拟登录爬虫项目实现思路283
20.3模拟登录爬虫项目编写实战284
20.4调试与运行292
20.5小结294
摘要
Preface?前    言为什么写这本书网络爬虫其实很早就出现了,最开始网络爬虫主要应用在各种搜索引擎中。在搜索引擎中,主要使用通用网络爬虫对网页进行爬取及存储。    随着大数据时代的到来,我们经常需要在海量数据的互联网环境中搜集一些特定的数据并对其进行分析,我们可以使用网络爬虫对这些特定的数据进行爬取,并对一些无关的数据进行过滤,将目标数据筛选出来。对特定的数据进行爬取的爬虫,我们将其称为聚焦网络爬虫。在大数据时代,聚焦网络爬虫的应用需求越来越大。    目前在国内Python网络爬虫的书籍基本上都是从国外引进翻译的,国内的本版书籍屈指可数,故而我跟华章的副总编杨福川策划了这本书。本书的撰写过程中各方面的参考资料非常少,因此完成本书所花费的精力相对来说是非常大的。    本书从系统化的视角,为那些想学习Python网络爬虫或者正在研究Python网络爬虫的朋友们提供了一个全面的参考,让读者可以系统地学习Python网络爬虫的方方面面,在理解并掌握了本书的实例之后,能够独立编写出自己的Python网络爬虫项目,并且能够胜任Python网络爬虫工程师相关岗位的工作。    同时,本书的另一个目的是,希望可以给大数据或者数据挖掘方向的从业者一定的参考,以帮助这些读者从海量的互联网信息中爬取需要的数据。所谓巧妇难为无米之炊,有了这些数据之后,从事大数据或者数据挖掘方向工作的读者就可以进行后续的分析处理了。    本书的主要内容和特色本书是一本系统介绍Python网络爬虫的书籍,全书注重实战,涵盖网络爬虫原理、如何手写Python网络爬虫、如何使用Scrapy框架编写网络爬虫项目等关于Python网络爬虫的方方面面。    本书的主要特色如下:    系统讲解Python网络爬虫的编写方法,体系清晰。    结合实战,让读者能够从零开始掌握网络爬虫的基本原理,学会编写Python网络爬虫以及Scrapy爬虫项目,从而编写出通用爬虫及聚焦爬虫,并掌握常见网站的爬虫反屏蔽手段。    有配套免费视频,对于书中的难点,读者可以直接观看作者录制的对应视频,加深理解。    拥有多个爬虫项目编写案例,比如博客类爬虫项目案例、图片类爬虫项目案例、模拟登录爬虫项目等。除此之外,还有很多不同种类的爬虫案例,可以让大家在理解这些案例之后学会各种类型爬虫的编写方法。    总之,在理解本书内容并掌握书中实例之后,读者将能胜任Python网络爬虫工程师方向的工作并学会各种类型网络爬虫项目的编写。此外,本书对于大数据或数据挖掘方向的从业者也非常有帮助,比如可以利用Python网络爬虫轻松获取所需的数据信息等。    本书面向的读者Python网络爬虫初学者网络爬虫工程师大数据及数据挖掘工程师高校计算机专业的学生其他对Python或网络爬虫感兴趣的人员如何阅读本书本书分为四篇,共计20章。    第一篇为理论基础篇(第1~2章),主要介绍了网络爬虫的基础知识,让大家从零开始对网络爬虫有一个比较清晰的认识。    第二篇为核心技术篇(第3~9章),详细介绍了网络爬虫实现的核心技术,包括网络爬虫的工作原理、如何用Urllib库编写网络爬虫、爬虫的异常处理、正则表达式、爬虫中Cookie的使用、手写糗事百科爬虫、手写链接爬虫、手写微信爬虫、手写多线程爬虫、浏览器伪装技术、Python网络爬虫的定向爬取技术及实例等。学完这一部分内容,读者就可以写出自己的爬虫了。这部分的爬虫编写采用的是一步步纯手写的方式进行的,没有采用框架。    第三篇为框架实现篇(第10~17章),主要详细介绍了如何用框架实现Python网络爬虫项目。使用框架实现Python网络爬虫项目相较于手写方式更加便捷,主要包括Python爬虫框架分类、Scrapy框架在各系统中的安装以及如何避免各种“坑”、如何用Scrapy框架编写爬虫项目、Scrapy框架架构详解、Scrapy的中文输出与存储、在Scrapy中如何使用for循环实现自动网页爬虫、如何通过CrawlSpider实现自动网页爬虫、如何将爬取的内容写进数据库等。其中第12章为基础部分,读者需要着重掌握。    第四篇为项目实战篇(第18~20章),分别讲述了博客类爬虫项目、图片类爬虫项目、模拟登录爬虫项目的编程及实现。其中,也会涉及验证码处理等方面的难点知识,帮助读者通过实际的项目掌握网络爬虫项目的编写。    勘误和支持由于作者的水平有限,书中难免有一些错误或不准确的地方,恳请各位读者不吝指正。    相关建议各位可以通过微博@韦玮pig或通过QQ公众号a67899或微信公众平台weijc7789(可以直接扫描下方二维码添加)进行反馈,也可以直接向邮箱ceo@iqianyue.com发送邮件,期待能够收到各位读者的意见和建议,欢迎来信。    致谢感谢机械工业出版社华章公司的副总编杨福川老师与编辑李艺老师,在近一年的时间里,是你们一次次在我遇到困难的时候,给予我鼓励,让我可以坚持写下去。创作一本图书是非常艰苦的,除了技术知识等因素之外,还需要非常大的毅力。特别感谢杨福川在写作过程中对我各方面的支持,尤其是对我毅力的培养。    感谢CSDN、51CTO与极客学院,因为你们,让我在这个领域获得了更多的学员与支持。    感谢恩师何云景教授对我创业方面的帮助,因为有您,我才拥有了一个更好的创业开端及工作环境。    特别致谢最后,需要特别感谢的是我的女友,因为编写这本书,少了很多陪你的时间,感谢你的不离不弃与理解包容。希望未来可以加倍弥补你那些错过吃的美食和那些错过逛的街道。    同时,也要感谢你帮我完成书稿的校对工作,谢谢你的付出与支持。因为有了你默默的付出,我才能坚定地走下去;因为有了你不断的支持,我才可以安心地往前冲。    感谢爷爷从小对我人生观、价值观的培养,您是一个非常有思想的人。    感谢远方的父母、叔叔、姐姐,那些亲情的陪伴是我最珍贵的财富。    谨以此书献给热爱Python的朋友们!

蜀ICP备2024047804号

Copyright 版权所有 © jvwen.com 聚文网