Python爬虫与反爬虫开发从入门到精通--聚文网

精选

¥5.83

世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版

¥5.39

正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册

¥8.58

简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版

¥5.83

世界文学名著全49册中小学生青少年课外书籍文学小说批发正版

¥4.95

全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷

¥8.69

父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册

¥24.2

好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册

¥7.15

幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书

¥11.55

用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书

¥19.8

少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版

¥64

科学真好玩

¥12.7

一年级下4册·读读童谣和儿歌

¥38.4

原生态新生代(传统木版年画的当代传承国际研讨会论文集)

¥11.14

法国经典中篇小说

¥11.32

上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)

¥22.05

猫的摇篮(精)

¥30.72

幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书

旧时风物(精)

三希堂三帖/墨林珍赏

寒山子庞居士诗帖/墨林珍赏

苕溪帖/墨林珍赏

楷书王维诗卷/墨林珍赏

兰亭序/墨林珍赏

祭侄文稿/墨林珍赏

蜀素帖/墨林珍赏

真草千字文/墨林珍赏

进宴仪轨(精)/中国古代舞乐域外图书

舞蹈音乐的基础理论与应用

内容简介

随着网络技术的迅速发展，如何有效地提取并利用信息，以及如何有效地防止信息被爬取，已成为一个巨大的挑战。本书从零开始系统地介绍了Python网络爬虫与反爬虫的开发与实战技能，全书共分为4篇，具体内容安排如下。第1篇：基础篇（第1～3章）。系统地讲解了Python爬虫与反爬虫开发环境的搭建、爬虫与反爬虫通用基础知识、Python编程基础。第2篇：爬虫篇（第4～8章）。这部分讲解了网络爬虫的相关知识与技能，主要包括网络爬虫快速入门、XPath匹配网页数据、re正则匹配数据、WebSocket数据抓取、Scrapy爬虫框架应用与开发等。第3篇：反爬虫篇（第9～16章）。这部分讲解了网络反爬虫的相关知识与技能，主要包括爬虫与反爬虫的区别与认识、反爬—Header信息校验、反爬—IP限制、反爬—动态渲染页面、反爬—文本混淆、反爬—特征识别、反爬—验证码识别、反爬—APP数据抓取等。第4篇：实战篇（第17章）。本篇主要列举了4个案例，综合讲解Python爬虫与反爬虫项目的实战应用。本书从零基础开始讲解，系统全面，案例丰富，注重实战，既适合Python程序员和爬虫爱好者阅读学习，也可以作为广大职业院校相关专业的教材或参考用书。

作者简介

刘延林，云镜团队创始人，拥有多年网络爬虫开发经验，著有《Python网络爬虫开发从入门到精通》，擅长Python网络爬虫、Web、数据挖掘与分析、网络安全、产品研发等领域。

第1篇基础篇第1章爬虫与反爬虫开发环境搭建　/2 1.1　Python 3环境搭建　/3 1.2　PyCharm的安装与基本使用　/7 1.3　Tesseract-OCR　/16 1.4　mitmproxy　/18 1.5　JDK 1.8　/22 本章小结　/24 第2章　爬虫与反爬虫通用基础知识　/25 2.1　网页基础　/26 2.2　网络传输协议　/28 2.3　Session和Cookies　/31 2.4　Nginx服务器　/34 2.5　代理IP　/36 2.6　HTTP接口概念　/40 2.7　新手问答　/40 本章小结　/41 第3章　Python编程基础　/42 3.1　Python的基础语法　/43 3.2　基本数据类型　/49 3.3　流程控制　/55 3.4　函数　/60 3.5　文件操作　/61 3.6　面向对象　/64 3.7　多线程　/68 3.8　新手实训　/70 3.9　新手问答　/71 本章小结　/72 第2篇　爬虫篇第4章　网络爬虫快速入门　/74 4.1　爬虫的基本结构及工作流程　/75 4.2　urllib网络请求库　/75 4.3　requests网络请求库　/82 4.4　urllib3网络请求库　/86 4.5　Postman接口测试工具　/90 4.6　新手实训　/95 4.7　新手问答　/95 本章小结　/96 第5章　XPath匹配网页数据　/97 5.1　安装XPath　/98 5.2　XPath的基础语法　/98 5.3　在Python中使用XPath匹配数据　/99 5.4　XPath表达式技巧　/103 5.5　扩展补充知识点　/105 5.6　新手实训　/107 5.7　新手问答　/109 本章小结　/109 第6章　re正则匹配数据　/110 6.1　re.compile函数　/111 6.2　re.match函数　/111 6.3　re.search函数　/113 6.4　re.match与re.search的区别　/114 6.5　检索和替换　/114 6.6　findall函数　/115 6.7　常见正则表达式写法　/116 6.8　新手实训　/117 6.9　新手问答　/119 本章小结　/120 第7章　WebSocket数据抓取　/121 7.1　WebSocket通信原理　/122 7.2　使用aioWebSocket获取数据　/122 7.3　新手实训　/129 7.4　新手问答　/131 本章小结　/131 第8章　Scrapy爬虫框架应用与开发　/132 8.1　Scrapy框架的基本架构　/133 8.2　安装Scrapy　/134 8.3　创建项目　/135 8.4　定义Item　/135 8.5　编写第一个Spider　/136 8.6　运行爬虫　/137 8.7　提取Item　/137 8.8　在Shell中尝试Selector选择器　/138 8.9　提取数据　/139 8.10　使用Item　/140 8.11　Item Pipeline　/141 8.12　将Item写入JSON文件　/142 8.13　新手实训　/143 8.14　新手问答　/146 本章小结　/146 第3篇　反爬虫篇第9章　爬虫与反爬虫　/148 9.1　爬虫知识的回顾与总结　/149 9.2　反爬虫的概念与定义　/154 本章小结　/155 第10章　反爬—Header信息校验　/156 10.1　User-Agent　/157 10.2　Cookie校验　/162 10.3　Referer校验　/165 10.4　签名校验　/166 10.5　新手实训　/170 10.6　新手问答　/176 本章小结　/176 第11章　反爬—IP限制　/177 11.1　代理设置　/178 11.2　代理池构建　/179 11.3　搭建自己的代理服务器　/183 11.4　使用Nginx实现封禁IP　/194 11.5　新手问答　/195 本章小结　/196 第12章　反爬—动态渲染页面　/197 12.1　动态渲染案例介绍　/198 12.2　常见应对动态渲染页面的解决办法　/201 12.3　使用Selenium爬取动态渲染页面　/201 12.4　获取浏览器Network请求和响应　/218 12.5　新手实训　/222 12.6　新手问答　/224 本章小结　/225 第13章　反爬—文本混淆　/226 13.1　图片伪装反爬　/227 13.2　CSS偏移反爬　/231 13.3　编码映射反爬　/238 13.4　字体反爬　/242 13.5　新手实训　/248 13.6　新手问答　/252 本章小结　/252 第14章　反爬—特征识别　/253 14.1　浏览器指纹　/254 14.2　WebDriver驱动识别　/255 14.3　使用mitmproxy　/262 14.4　网页精灵　/269 14.5　新手实训　/275 14.6　新手问答　/277 本章小结　/277 第15章　反爬—验证码识别　/278 15.1　普通图形验证码　/279 15.2　滑动验证码　/281 15.3　滑动拼图验证码　/285 15.4　新手实训　/292 15.5　新手问答　/294 本章小结　/295 第16章　反爬—APP数据抓取　/296 16.1　APP的抓包分析　/297 16.2　Appium自动化　/310 16.3　APK安装包反编译　/324 16.4　APK反编译知识补充　/327 16.5　新手实训　/327 16.6　新手问答　/332 本章小结　/332 第4篇　实战篇第17章　项目实战　/334 17.1　土地市场网——地块公示　/335 17.2　纽约工商数据采集　/348 17.3　携程旅行火车票票价数据采集　/356 17.4　智联招聘数据采集　/361 附录A　爬虫法律法规　/368 附录B　实验环境的搭建方法及说明　/371 附录C　Python常见面试题精选　/375

Python爬虫与反爬虫开发从入门到精通

库存： {{selectedSku?.stock}} 库存充足