Python网络爬虫案例实战--聚文网

精选

¥5.83

世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版

¥5.39

正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册

¥8.58

简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版

¥5.83

世界文学名著全49册中小学生青少年课外书籍文学小说批发正版

¥4.95

全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷

¥8.69

父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册

¥24.2

好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册

¥7.15

幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书

¥11.55

用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书

¥19.8

少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版

¥64

科学真好玩

¥12.7

一年级下4册·读读童谣和儿歌

¥38.4

原生态新生代(传统木版年画的当代传承国际研讨会论文集)

¥11.14

法国经典中篇小说

¥11.32

上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)

¥22.05

猫的摇篮(精)

¥30.72

幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书

旧时风物(精)

三希堂三帖/墨林珍赏

寒山子庞居士诗帖/墨林珍赏

苕溪帖/墨林珍赏

楷书王维诗卷/墨林珍赏

兰亭序/墨林珍赏

祭侄文稿/墨林珍赏

蜀素帖/墨林珍赏

真草千字文/墨林珍赏

进宴仪轨(精)/中国古代舞乐域外图书

舞蹈音乐的基础理论与应用

编辑推荐

"（1）以案例项目为主线讲述Python爬虫开发中所需的知识和技能（2）具有超强的实用性，项目随着图书内容的推进不断趋于工程化（3）书中给出了80多个实例让读者理解概念、原理和算法 "

内容简介

《Python网络爬虫案例实战》介绍如何利用Python开发网络爬虫，实用性较强。《Python网络爬虫案例实战》以案例项目为驱动，由浅入深地讲解爬虫开发中所需要的知识和技能。从静态网站到动态网站，从单机爬虫到分布式爬虫，既包含基础知识点，又讲解了关键问题和重难点问题，包含从入门到进阶的所有知识。《Python网络爬虫案例实战》主要包括爬虫网络概述、Web前端、静态网络抓取、动态网页抓取、解析网页、Python并发、数据库、反爬虫、乱码问题、登录与验证码、采集服务器、基础爬虫、App爬取、分布式爬虫、爬虫的综合实战等内容。《Python网络爬虫案例实战》适合Python初学者，也适合研究Python的广大科研人员、学者、工程技术人员。

第1章爬虫网络概述
1.1HTTP基本原理
1.1.1URL和URL
1.1.2超文本
1.1.3HTTP和HTTPS
1.1.4HTTP请求过程
1.1.5请求
1.1.6响应
1.2网页基础
1.2.1网页的组成
1.2.2节点树及节点间的关系
1.2.3选择器
1.3网络爬虫合法性
1.3.1Robots协议
1.3.2网络爬虫的约束
1.4网络爬虫技术
1.4.1网络爬虫的概述
1.4.2网络爬虫原理
1.4.3网络爬虫系统的工作原理
1.4.4Python爬虫的架构
1.4.5爬虫对互联网进行划分
1.5爬取策略
1.6爬虫网络更新策略
1.7会话和Cookie
1.7.1静态网页和动态网页
1.7.2无状态HTTP
1.7.3常见误区
1.8代理的基本原理
1.8.1基本原理
1.8.2代理的作用
1.8.3爬虫代理
1.8.4代理分类
1.8.5常见代理设置
1.9习题
第2章Python平台及Web前端
2.1Python软件概述
2.2Python的安装
2.2.1在Linux系统中搭建Python环境
2.2.2在Windows系统中搭建Python环境
2.2.3使用pip安装第三方库
2.3Python的入门
2.3.1基本命令
2.3.2数据类型
2.4条件语句与循环语句
2.4.1条件语句
2.4.2循环语句
2.5面向对象编程
2.5.1面向对象技术简介
2.5.2类定义
2.5.3类对象
2.5.4类的方法
2.5.5继承
2.6第一个爬虫实例
2.7Web前端
2.8习题
第3章静态网页爬取
3.1Requests的安装
3.2获取响应内容
3.3JSON数据库
3.3.1JSON的使用
3.3.2爬取抽屉网信息
3.4传递URL参数
3.5获取响应内容
3.6获取网页编码
3.7定制请求头
3.8发送POST请求
3.9设置超时
3.10代理访问
3.11自定义请求头部
3.12Requests爬虫实践
3.12.1状态码521网页的爬取
3.12.2TOP250电影数据
3.13习题
第4章动态网页爬取
4.1动态爬取淘宝网实例
4.2什么是Ajax
4.2.1Ajax分析
4.2.2Ajax结果提取
4.2.3Ajax爬取今日头条街拍美图
4.3解析真实地址爬取
4.4selenium爬取动态网页
4.4.1安装selenium
4.4.2爬取百度表情包
4.5爬取去哪儿网
4.6习题
第5章解析网页
5.1获取豆瓣电影
5.2正则表达式解析网页
5.2.1字符串匹配
5.2.2起始位置匹配字符串
5.2.3所有子串匹配
5.2.4Requests爬取猫眼电影排行
5.3BeautifulSoup解析网页
5.4PyQuery解析库
5.4.1使用PyQuery
5.4.2PyQuery爬取煎蛋网商品图片
5.5lxml解析网页
5.5.1使用lxml
5.5.2文件读取
5.5.3XPath使用
5.5.4爬取LOL百度贴吧图片
5.6爬取二手房网站数据
5.7习题
第6章并发与Web
6.1并发和并行、同步和异步、阻塞与非阻塞
6.1.1并发和并行
6.1.2同步与异步
6.1.3阻塞与非阻塞
6.2线程
6.2.1线程模块
6.2.2使用Threading模块创建线程
6.2.3线程同步
6.2.4线程池在Web编程的应用
6.3队列
6.4进程
6.4.1进程与线程的历史
6.4.2进程与线程之间的关系
6.4.3进程与进程池
6.5协程
6.5.1协程的生成器的基本行为
6.5.2协程的4个状态
6.5.3终止协程和异常处理
6.5.4显式地将异常发给协程
6.5.5yield from获取协程的返回值
6.5.6协程案例分析
6.6分布式进程案例分析
6.7网络编程
6.7.1TCP编程
6.7.2UDP编程
6.8习题
第7章Python数据库存储
7.1几种保存方法
7.1.1Open函数保存
7.1.2pandas包保存
7.1.3CSV模块保存
7.1.4numpy包保存
7.2JSON文件存储
7.2.1对象和数组
7.2.2读取JSON
7.2.3读JSON文件
7.2.4输出JSON
7.3存储到MongoDB数据库
7.3.1MongoDB的特点
7.3.2下载安装MongoDB
7.3.3配置 MongoDB 服务
7.3.4创建数据库
7.4爬取虎扑论坛帖子
7.5习题
第8章Python反爬虫
8.1为什么会被反爬虫
8.2反爬虫的方式有哪些
8.2.1不返回网页
8.2.2返回数据非目标网页
8.2.3获取数据变难
8.3怎样“反反爬虫”
8.3.1修改请求头
8.3.2修改爬虫访问周期
8.3.3使用代理
8.4习题
第9章Python中文乱码问题
9.1什么是字符编码
9.2Python的字符编码
9.3解决中文编码问题
9.4网页使用gzip压缩
9.5Python读写文件中出现乱码
9.6Matplotlib中文乱码问题
9.7习题
第10章Python登录与验证码
10.1登录表单
10.1.1处理登录表单
10.1.2处理Cookie
10.1.3完整的登录代码
10.2验证码处理
10.2.1如何使用验证码验证
10.2.2人工方法处理验证码
10.2.3OCR处理验证码
10.3极验滑动验证码的识别案例
10.4点触验证码的识别案例
10.5习题
第11章Python采集服务器
11.1使用服务器采集原因
11.1.1大规模爬虫的需要
11.1.2防止IP地址被封杀
11.2动态IP拨号服务器
11.2.1购买拨号服务器
11.2.2登录服务器
11.2.3Python更换IP
11.2.4爬虫与更换IP功能结合
11.3Tor代理服务器
11.3.1安装Tor
11.3.2使用Tor
11.3.3实现自动投票
11.4习题
第12章Python基础爬虫
12.1架构及流程
12.2URL管理器
12.3HTML下载器
12.4HTML解析器
12.5数据存储器
12.6爬虫调度器实现
12.7习题
第13章Python的App爬取
13.1Charles爬取
13.2Appium爬取
13.2.1Appium安装
13.2.2Appium的基本使用
13.3API爬取
13.4Appium爬取微信朋友圈
13.5习题
第14章Python分布式爬虫
14.1主从模式
14.1.1URL管理器
14.1.2数据存储器
14.1.3控制调度器
14.2爬虫节点
14.2.1HTML下载器
14.2.2HTML解析器
14.2.3爬虫调度器
14.3Redis
14.3.1Redis的安装
14.3.2Redis的配置
14.3.3数据类型
14.4Python与Redis
14.4.1连接方式
14.4.2连接池
14.4.3Redis的基本操作
14.4.4管道
14.4.5发布和订阅
14.5操作RabbitMQ
14.5.1安装Erlang
14.5.2安装RabbitMQ
14.6习题
第15章爬虫的综合实战
15.1Email提醒
15.2爬取mp3资源信息
15.3创建云起书院爬虫
15.4使用代理爬取微信公众号文章
参考文献

摘要

第3章 CHAPTER 3 静态网页爬取在网站设计中，纯粹HTML(标准通用标记语言下的一个应用)格式的网页通常被称为“静态网页”。静态网页是相对于动态网页而言的，是指没有后台数据库、不含程序和不可交互的网页。静态网页的更新相对比较麻烦，适用于一般更新较少的展示型网站。容易让人产生误解的是静态页面都是HTML这类页面，实际上静态也不是接近静态，它也可以出现各种动态的效果，如GIF格式的动画、Flash、滚动字幕等。在网络爬虫中，静态网页的数据比较容易获取，因为所有数据都呈现在网页的HTML代码中。相对而言，使用AJAX动态加载网络的数据不一定会出现在HTML代码中，这就给爬虫增加了困难。在静态网页中，有一个强大的Requests库能够让我们方便地发送HTTP请求，这个库功能完善，而且操作非常简单。 3.1Requests的安装在Windows系统下，Requests库可以通过pip安装。打开cmd或terminal，输入： pip install requests 即可完成安装，可以输入 import requests 命令来试试是否安装成功，如图31所示即显示安装成功。图31成功安装Requests 在Requests中，最常用的功能就是获取某个网页内容。现在使用Requests获取个人博客主页的内容。 >>> import requests >>> r = requests.get('http://www.zhidaow.com')# 发送请求 >>> r.status_code# 返回码 200 >>> r.headers［'content-type'］ # 返回头部信息 'text/html; charset=utf-8' >>> r.encoding # 编码信息 'utf-8' >>> r.text #内容部分(PS，由于编码问题，建议这里使用r.content) '＼n＼n＼n ＼n

Python网络爬虫案例实战

库存： {{selectedSku?.stock}} 库存充足

上架到店铺