您好,欢迎来到聚文网。 登录 免费注册
Python爬虫与反爬虫开发从入门到精通

Python爬虫与反爬虫开发从入门到精通

  • 字数: 601
  • 出版社: 北京大学
  • 作者: 编者:刘延林|责编:王继伟//刘云
  • 商品条码: 9787301322697
  • 版次: 1
  • 开本: 16开
  • 页数: 378
  • 出版年份: 2021
  • 印次: 1
定价:¥99 销售价:登录后查看价格  ¥{{selectedSku?.salePrice}} 
库存: {{selectedSku?.stock}} 库存充足
{{item.title}}:
{{its.name}}
精选
内容简介
随着网络技术的迅速发展,如何有效地提取并利用信息,以及如何有效地防止信息被爬取,已成为一个巨大的挑战。本书从零开始系统地介绍了Python网络爬虫与反爬虫的开发与实战技能,全书共分为4篇,具体内容安排如下。 第1篇:基础篇(第1~3章)。系统地讲解了Python爬虫与反爬虫开发环境的搭建、爬虫与反爬虫通用基础知识、Python编程基础。 第2篇:爬虫篇(第4~8章)。这部分讲解了网络爬虫的相关知识与技能,主要包括网络爬虫快速入门、XPath匹配网页数据、re正则匹配数据、WebSocket数据抓取、Scrapy爬虫框架应用与开发等。 第3篇:反爬虫篇(第9~16章)。这部分讲解了网络反爬虫的相关知识与技能,主要包括爬虫与反爬虫的区别与认识、反爬—Header信息校验、反爬—IP限制、反爬—动态渲染页面、反爬—文本混淆、反爬—特征识别、反爬—验证码识别、反爬—APP数据抓取等。 第4篇:实战篇(第17章)。本篇主要列举了4个案例,综合讲解Python爬虫与反爬虫项目的实战应用。 本书从零基础开始讲解,系统全面,案例丰富,注重实战,既适合Python程序员和爬虫爱好者阅读学习,也可以作为广大职业院校相关专业的教材或参考用书。
作者简介
刘延林,云镜团队创始人,拥有多年网络爬虫开发经验,著有《Python网络爬虫开发从入门到精通》,擅长Python网络爬虫、Web、数据挖掘与分析、网络安全、产品研发等领域。
目录
第1篇 基础篇 第1章 爬虫与反爬虫开发环境搭建 /2 1.1 Python 3环境搭建 /3 1.2 PyCharm的安装与基本使用 /7 1.3 Tesseract-OCR /16 1.4 mitmproxy /18 1.5 JDK 1.8 /22 本章小结 /24 第2章 爬虫与反爬虫通用基础知识 /25 2.1 网页基础 /26 2.2 网络传输协议 /28 2.3 Session和Cookies /31 2.4 Nginx服务器 /34 2.5 代理IP /36 2.6 HTTP接口概念 /40 2.7 新手问答 /40 本章小结 /41 第3章 Python编程基础 /42 3.1 Python的基础语法 /43 3.2 基本数据类型 /49 3.3 流程控制 /55 3.4 函数 /60 3.5 文件操作 /61 3.6 面向对象 /64 3.7 多线程 /68 3.8 新手实训 /70 3.9 新手问答 /71 本章小结 /72 第2篇 爬虫篇 第4章 网络爬虫快速入门 /74 4.1 爬虫的基本结构及工作流程 /75 4.2 urllib网络请求库 /75 4.3 requests网络请求库 /82 4.4 urllib3网络请求库 /86 4.5 Postman接口测试工具 /90 4.6 新手实训 /95 4.7 新手问答 /95 本章小结 /96 第5章 XPath匹配网页数据 /97 5.1 安装XPath /98 5.2 XPath的基础语法 /98 5.3 在Python中使用XPath匹配数据 /99 5.4 XPath表达式技巧 /103 5.5 扩展补充知识点 /105 5.6 新手实训 /107 5.7 新手问答 /109 本章小结 /109 第6章 re正则匹配数据 /110 6.1 re.compile函数 /111 6.2 re.match函数 /111 6.3 re.search函数 /113 6.4 re.match与re.search的区别 /114 6.5 检索和替换 /114 6.6 findall函数 /115 6.7 常见正则表达式写法 /116 6.8 新手实训 /117 6.9 新手问答 /119 本章小结 /120 第7章 WebSocket数据抓取 /121 7.1 WebSocket通信原理 /122 7.2 使用aioWebSocket获取数据 /122 7.3 新手实训 /129 7.4 新手问答 /131 本章小结 /131 第8章 Scrapy爬虫框架应用与开发 /132 8.1 Scrapy框架的基本架构 /133 8.2 安装Scrapy /134 8.3 创建项目 /135 8.4 定义Item /135 8.5 编写第一个Spider /136 8.6 运行爬虫 /137 8.7 提取Item /137 8.8 在Shell中尝试Selector选择器 /138 8.9 提取数据 /139 8.10 使用Item /140 8.11 Item Pipeline /141 8.12 将Item写入JSON文件 /142 8.13 新手实训 /143 8.14 新手问答 /146 本章小结 /146 第3篇 反爬虫篇 第9章 爬虫与反爬虫 /148 9.1 爬虫知识的回顾与总结 /149 9.2 反爬虫的概念与定义 /154 本章小结 /155 第10章 反爬—Header信息校验 /156 10.1 User-Agent /157 10.2 Cookie校验 /162 10.3 Referer校验 /165 10.4 签名校验 /166 10.5 新手实训 /170 10.6 新手问答 /176 本章小结 /176 第11章 反爬—IP限制 /177 11.1 代理设置 /178 11.2 代理池构建 /179 11.3 搭建自己的代理服务器 /183 11.4 使用Nginx实现封禁IP /194 11.5 新手问答 /195 本章小结 /196 第12章 反爬—动态渲染页面 /197 12.1 动态渲染案例介绍 /198 12.2 常见应对动态渲染页面的解决办法 /201 12.3 使用Selenium爬取动态渲染页面 /201 12.4 获取浏览器Network请求和响应 /218 12.5 新手实训 /222 12.6 新手问答 /224 本章小结 /225 第13章 反爬—文本混淆 /226 13.1 图片伪装反爬 /227 13.2 CSS偏移反爬 /231 13.3 编码映射反爬 /238 13.4 字体反爬 /242 13.5 新手实训 /248 13.6 新手问答 /252 本章小结 /252 第14章 反爬—特征识别 /253 14.1 浏览器指纹 /254 14.2 WebDriver驱动识别 /255 14.3 使用mitmproxy /262 14.4 网页精灵 /269 14.5 新手实训 /275 14.6 新手问答 /277 本章小结 /277 第15章 反爬—验证码识别 /278 15.1 普通图形验证码 /279 15.2 滑动验证码 /281 15.3 滑动拼图验证码 /285 15.4 新手实训 /292 15.5 新手问答 /294 本章小结 /295 第16章 反爬—APP数据抓取 /296 16.1 APP的抓包分析 /297 16.2 Appium自动化 /310 16.3 APK安装包反编译 /324 16.4 APK反编译知识补充 /327 16.5 新手实训 /327 16.6 新手问答 /332 本章小结 /332 第4篇 实战篇 第17章 项目实战 /334 17.1 土地市场网——地块公示 /335 17.2 纽约工商数据采集 /348 17.3 携程旅行火车票票价数据采集 /356 17.4 智联招聘数据采集 /361 附录A 爬虫法律法规 /368 附录B 实验环境的搭建方法及说明 /371 附录C Python常见面试题精选 /375

蜀ICP备2024047804号

Copyright 版权所有 © jvwen.com 聚文网