您好,欢迎来到聚文网。
登录
免费注册
网站首页
|
搜索
热搜:
磁力片
|
购物车
0
我的订单
商品分类
首页
幼儿
文学
社科
教辅
生活
销量榜
Python网络爬虫开发从入门到精通(第2版)
字数: 542
出版社: 北京大学
作者: 刘延林,徐清徽 编著
商品条码: 9787301359495
适读年龄: 12+
版次: 2
开本: 16开
页数: 344
出版年份: 2025
印次: 1
定价:
¥89
销售价:
登录后查看价格
¥{{selectedSku?.salePrice}}
库存:
{{selectedSku?.stock}}
库存充足
{{item.title}}:
{{its.name}}
加入购物车
立即购买
加入书单
收藏
精选
¥5.83
世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版
¥5.39
正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册
¥8.58
简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版
¥5.83
世界文学名著全49册中小学生青少年课外书籍文学小说批发正版
¥4.95
全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷
¥8.69
父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册
¥24.2
好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册
¥7.15
幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书
¥11.55
用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书
¥19.8
少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版
¥64
科学真好玩
¥12.7
一年级下4册·读读童谣和儿歌
¥38.4
原生态新生代(传统木版年画的当代传承国际研讨会论文集)
¥11.14
法国经典中篇小说
¥11.32
上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)
¥21.56
猫的摇篮(精)
¥30.72
幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书
¥24.94
旧时风物(精)
¥12.04
三希堂三帖/墨林珍赏
¥6.88
寒山子庞居士诗帖/墨林珍赏
¥6.88
苕溪帖/墨林珍赏
¥6.88
楷书王维诗卷/墨林珍赏
¥9.46
兰亭序/墨林珍赏
¥7.74
祭侄文稿/墨林珍赏
¥7.74
蜀素帖/墨林珍赏
¥12.04
真草千字文/墨林珍赏
¥114.4
进宴仪轨(精)/中国古代舞乐域外图书
¥24.94
舞蹈音乐的基础理论与应用
内容简介
本书共分4篇,针对Python爬虫初学者,从零开始系统地讲解了如何利用Python进行网络爬虫程序开发。 第1篇快速入门篇(第1~9章):本篇主要介绍了Python环境的搭建和一些Python的基础语法知识、Python爬虫入门知识及基本的使用方法、Ajax数据的分析和抓取、动态渲染页面数据的爬取、网站代理的设置与使用、验证码的识别与破解,以及App数据抓取、数据的存储方法等内容。 第2篇技能进阶篇(第10~12章):本篇主要介绍了PySpider和Scrapy两个常用爬虫框架的基本使用方法、爬虫的部署方法,以及数据分析、数据清洗常用库的使用方法。 第3篇项目实战篇(第13章):本篇以2个综合实战项目,详细地讲解了Python数据爬虫开始与实战应用。本篇对全书内容进行了总结回顾,强化读者的实操水平。 第4篇技能拓展篇(第14章):本篇从数据爬取、数据清洗和数据分析三个角度,介绍了一常用AI技术的实用技巧。运用这些技巧,读者可以提高网络爬虫程序的编写速度和数据分析效率。 本书案例丰富,注重实战,既适合Python程序员和爬虫爱好者阅读学习,也适合作为广大职业院校相关专业的教学用书。
作者简介
刘延林 知名论坛Python爬虫专题管理员,擅长Python爬虫技术,并对Python数据分析与挖掘有深入研究。在CSDN等多个知名博客网站发表多篇技术文章,深受读者的喜爱。 徐清徽 曾供职于国内头部智能销售企业和跨境电商企业,对Python Web技术、爬虫和大数据技术均有涉猎,深度参与日均百亿级数据量的爬虫系统和大数据系统研发。
目录
第 1 篇? 快速入门篇 第 1 章? Python 基础 1.1 Python 环境搭建 1.1.1? Windows 下 Python 环境的安装 1.1.2? Linux 下 Python 环境的安装 1.1.3? macOS 下 Python 环境的安装 1.1.4? IDE 开发工具介绍 1.2 Python 入门 1.2.1? 第一个 Python 程序 1.2.2? Python 注释 1.2.3? 数据类型和变量 1.2.4? 字符串和编码 1.2.5? 列表 1.2.6? 元组 1.2.7? 字典 1.2.8? 集合 1.2.9? 条件语句 1.2.10? 循环语句 1.2.11? 函数 1.2.12? 类 1.2.13? 推导式 1.2.14? 赋值表达式 1.3 新手实训 实训一:使用 for 循环实现九九乘法表 实训二:判断闰年 实训三:计算二次方程 1.4 新手问答 本章小结 第 2 章? Python 爬虫入门 39 2.1 爬虫的分类 2.1.1? 通用网络爬虫 2.1.2? 聚焦网络爬虫 2.1.3? 增量式网络爬虫 2.1.4? 深层网络爬虫 2.2 爬虫的基本结构及工作流程 2.3 爬虫策略 2.3.1? 深度优先遍历策略 2.3.2? 宽度优先遍历策略 2.3.3? 大站优先策略 2.3.4? 最佳优先搜索策略 2.4 HTTP 基本原理 2.4.1? URI 和 URL 介绍 2.4.2? 超文本 2.4.3? HTTP 和 HTTPS 2.4.4? HTTP 请求过程. 2.5 网页基础 2.5.1? 网页的组成 2.5.2? 网页的结构 2.6 Session 和 Cookie 2.6.1? Session 和 Cookie 的工作原理 2.6.2? Session 和 Cookie 的区别 2.6.3? 常见误区 2.7 新手实训 实训一:编写网页 实训二:在网页中插入标签 2.8 新手问答 本章小结 第 3 章 基本库的使用 3.1 urllib 3.1.1? urlopen() 3.1.2? 简单抓取网页 3.1.3? 设置请求超时 3.1.4? 使用 data 参数提交数据 3.1.5? Request 3.1.6? 简单使用 Request 3.1.7? Request 高级用法 3.1.8? 使用代理 3.1.9? 认证登录 3.1.10? Cookie 设置 3.1.11? HTTPResponse 3.1.12? 错误解析 3.2 requests 3.2.1? requests 库的安装 3.2.2? requests 库的使用方法介绍 3.2.3? requests.get() 3.2.4? requests 库的异常 3.2.5? request.head() 3.2.6? requests.post() 3.2.7? requests.put() 和 requests.patch() 3.3 re正则使用 3.3.1? re.match() 3.3.2? re.search() 3.3.3? re.match() 与 re.search() 的区别 3.3.4? 检索和替换 3.3.5? re.compile() 3.3.6? findall() 3.4 XPath 3.4.1? XPath 的使用方法 3.4.2? 利用实例讲解 XPath 的使用 3.4.3? 获取所有节点 3.4.4? 获取子节点 3.4.5? 获取文本信息 3.4.6? 通过谷歌浏览器获取 XPath 表达式 3.5 BeautifulSoup 3.5.1? BeautifulSoup 模块的安装 3.5.2? 定位节点 3.5.3? 提取数据 3.6 新手实训 实训一:requests 库爬取豆瓣电影 Top250 页面 实训二:百度搜索关键字提交 3.7 新手问答 本章小结 第 4 章? Ajax数据抓取 4.1 Ajax 简介 4.1.1? 实例引入 4.1.2? Ajax 的基本原理 4.1.3? Ajax 方法分析 4.2 使用 Python模拟Ajax请求数据 4.2.1? 分析请求 4.2.2? 分析响应结果 4.2.3? 编写代码模拟抓取 4.3 新手实训 实训一:分析猎聘网的 xhr 请求并编写代码模拟抓取数据 实训二:分析南方航空官网的机票查询 xhr 请求抓取数据 4.4 新手问答 本章小结 第 5 章 动态渲染页面爬取 5.1 Selenium 的使用 5.1.1? 安装 Selenium 库 5.1.2? Selenium 定位方法 5.1.3? 控制浏览器操作 5.1.4? WebDriver 常用方法 5.1.5? 鼠标事件和键盘事件 5.1.6? 获取断言信息 5.1.7? 设置元素等待 5.1.8? 多表单切换 5.1.9? 下拉框选择 5.1.10? 调用 JavaScript 代码 5.1.11? 窗口截图 5.1.12? 无头浏览模式 5.2 Playwright 的基本使用 5.2.1? Playwright 的安装 5.2.2? Playwright 定位方法 5.2.3? Playwright 交互方法 5.3 新手实训 实训一:模拟登录豆瓣 实训二:使用 Playwright 模拟百度搜索 5.4 新手问答 本章小结 第 6 章 代理的设置与使用 6.1 代理设置 6.1.1? urllib 代理设置 6.1.2? requests 代理设置 6.1.3? Selenium 代理设置 6.1.4? Playwright 代理设置 6.2 代理池构建 6.2.1? 获取 IP 6.2.2? 验证代理是否可用 6.2.3? 使用代理池 6.3 付费代理的使用 6.3.1? 讯代理的使用 6.3.2? 快代理的使用 6.4 自建代理IP服务 6.4.1? ADSL 拨号原理 6.4.2? 购买 VPS 主机 6.4.3? 测试拨号 6.4.4? HTTP 协议代理搭建与测试 6.4.5? Socks 协议代理搭建与测试 6.4.6? 使用 Python 实现拨号 6.5 新手问答 本章小结 第 7 章 验证码的识别与破解 7.1 普通图形验证码识别 7.1.1? Python OCR 识别库的安装 7.1.2? 使用 OCR 识别简单的图形验证码 7.1.3? 数值计算型的验证码破解 7.2 滑动验证码原理 7.2.1? 普通滑动验证码 7.2.2? 带缺口的滑块验证码 7.3 其他常见验证码介绍 7.4 新手问答 本章小结 第 8 章? App 数据抓取 8.1 Fiddler 的基本使用 8.1.1? Fiddler 设置 8.1.2? 手机端设置 8.1.3? 抓取今日头条 App 请求包 8.2 Charles 基本使用 8.2.1? Charles 安装 8.2.2? 证书设置 8.2.3? 手机端配置 8.2.4? 抓包 8.2.5? 分析 8.2.6? 重发 8.3 Appium 基本使用 8.3.1? Appium 安装 8.3.2? 启动 App 8.3.3? appPackage 和 appActivity 参数的获取方法 8.3.4? Python 代码驱动 App 8.3.5? 常用 API 方法 8.4 新手问答 本章小结 第 9 章 数据存储 9.1 文件存储 9.1.1? TEXT 文件存储 9.1.2? JSON 文件存储 9.1.3? CSV 文件存储 9.1.4? Excel 文件存储 9.2 数据库存储 9.2.1? MySQL 存储 9.2.2? MongoDB 存储 9.2.3? Redis 存储 9.2.4? PostgreSQL 存储 9.3 新手实训 实训一:爬取云代理 IP 并保存到 Redis 数据库中 实训二:爬取简书文章列表数据保存到 MySQL 数据库中 9.4 新手问答 本章小结 第 2 篇? 技能进阶篇 第 10 章 常用爬虫框架 10.1 PySpider 框架 10.1.1? 安装 PySpider 10.1.2? PySpider 的基本功能 10.1.3? PySpider 架构 10.1.4? 第一个 PySpider 爬虫 10.1.5? 保存数据到 MySQL 数据库 10.2 Scrapy 框架 10.2.1? 安装 Scrapy 10.2.2? 创建项目 10.2.3? 定义 Item 10.2.4? 编写第一个爬虫(Spider) 10.2.5? 运行爬取 10.2.6? 提取 Item 10.2.7? 在 Shell 中尝试 Selector 选择器 10.2.8? 提取数据 10.2.9? 使用 Item 10.2.10? Item Pipeline 10.2.11? 将 Item 写入 JSON 文件 10.2.12? 保存数据到数据库 10.3 Scrapy-Splash 的使用 10.3.1? 新建项目 10.3.2? 配置 10.3.3? 编写爬虫 10.3.4? 运行爬虫 10.4 新手实训 实训一:使用 Scrapy 爬取四川麻辣社区提取
标签内容. 实训二:使用 PySpider 爬取 IMDb 电影资料信息 10.5 新手问答 本章小结 第 11 章 部署爬虫 11.1 Linux 系统下安装 Python 3 11.1.1? 安装 Python 3 11.1.2? 安装 virtualenv 11.2 Docker 的使用 11.2.1? DockerHelloWorld 11.2.2? 运行交互式的容器 11.2.3? 启动容器(后台模式) 11.2.4? 停止容器 11.3 Docker安装Python 11.3.1? docker pull python:3.5 11.3.2? 通过 Dockerfile 构建 11.3.3? 使用 python 镜像 11.4 Docker安装MySQL 本章小结 第 12 章 数据分析与可视化 12.1 NumPy 的使用 12.1.1? NumPy 安装 12.1.2? NumPy ndarray 对象 12.1.3? NumPy 数据类型 12.1.4? 数组属性 12.1.5? NumPy 创建数组 12.1.6? NumPy 切片和索引 12.1.7? 数组的运算 12.1.8? NumPy Matplotlib 12.2 Pandas 的使用 12.2.1? 从 CSV 文件中读取数据 12.2.2? 向 CSV 文件中写入数据 12.2.3? Pandas 数据帧 12.2.4? Pandas 函数应用 12.2.5? Pandas 排序 12.2.6? Pandas 聚合 12.2.7? Pandas 可视化 12.3 pyecharts 的使用 12.3.1? 绘制第一个图表 12.3.2? 使用主题 12.3.3? 使用 pyecharts-snapshot 插件 12.3.4? 图形绘制过程 12.3.5? 多次显示图表 12.3.6? Pandas 或 Numpy 简单示例 12.4 新手问答 本章小结 第 3 篇? 项目实战篇 第 13 章 Python 爬虫项目实战 13.1 实战一:requests 爬取房天下二手房数据 13.1.1? 抓包分析 13.1.2? 编写爬虫代码 13.1.3? 分析二手房小区分布 13.1.4? 实例总结 13.2 实战二:Scrapy 爬取电商网站产品数据 13.2.1? 抓包分析 13.2.2? 编写爬虫代码 13.2.3? 分析新品价格区间分布情况 13.2.4? 实例总结 本章小结 第 4 篇? 技能拓展篇 第 14 章? 巧用 AI 工具辅助数据爬取与分析 14.1 熟悉常用 AI 工具 14.1.1? 快速上手文心一言 14.1.2? 快速上手豆包 14.2 AI工具助力爬虫技术 14.2.1? 快速学习爬虫知识 14.2.2? 辅助编写爬虫代码 14.2.3? 辅助数据处理与可视化分析 14.3 案例实战:利用 AI 工具快速爬取与分析豆瓣电影数据 14.3.1? 利用豆包 AI 工具辅助编写爬虫代码 14.3.2? 利用豆包 AI 工具辅助数据分析与可视化 本章小结
×
Close
添加到书单
加载中...
点此新建书单
×
Close
新建书单
标题:
简介:
蜀ICP备2024047804号
Copyright 版权所有 © jvwen.com 聚文网