您好,欢迎来到聚文网。
登录
免费注册
网站首页
|
联系客服
|
搜索
热搜:
巴比伦首富
|
巴比伦
|
毛选
|
购物车
0
我的订单
商品分类
首页
幼儿
文学
社科
教辅
生活
销量榜
Python网络爬虫
字数: 370
出版社: 电子工业
作者: 耿兴隆
商品条码: 9787121438103
版次: 1
页数: 212
出版年份: 2023
印次: 1
定价:
¥49
销售价:
登录后查看价格
¥{{selectedSku?.salePrice}}
库存:
{{selectedSku?.stock}}
库存充足
{{item.title}}:
{{its.name}}
加入购物车
立即购买
收藏
上架到店铺
×
Close
上架到店铺
{{shop.name}}
点此去绑定店铺
精选
¥5.83
世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版
¥5.39
正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册
¥8.58
简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版
¥5.83
世界文学名著全49册中小学生青少年课外书籍文学小说批发正版
¥4.95
全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷
¥8.69
父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册
¥24.2
好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册
¥7.15
幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书
¥11.55
用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书
¥19.8
少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版
¥64
科学真好玩
¥12.7
一年级下4册·读读童谣和儿歌
¥38.4
原生态新生代(传统木版年画的当代传承国际研讨会论文集)
¥11.14
法国经典中篇小说
¥11.32
上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)
¥22.05
猫的摇篮(精)
¥30.72
幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书
¥24.94
旧时风物(精)
¥12.04
三希堂三帖/墨林珍赏
¥6.88
寒山子庞居士诗帖/墨林珍赏
¥6.88
苕溪帖/墨林珍赏
¥6.88
楷书王维诗卷/墨林珍赏
¥9.46
兰亭序/墨林珍赏
¥7.74
祭侄文稿/墨林珍赏
¥7.74
蜀素帖/墨林珍赏
¥12.04
真草千字文/墨林珍赏
¥114.4
进宴仪轨(精)/中国古代舞乐域外图书
¥24.94
舞蹈音乐的基础理论与应用
内容简介
本书介绍如何结合Python进行网络爬虫程序的开发,从Python语言的基本特性入手,详细介绍了Python网络爬虫开发的各个方面,涉及HTTP、HTML、JavaScript、正则表达式、自然语言处理、数据科学等不同领域的内容。全书共10章,包括Python基础知识、网站分析、网页解析、Python文件读写、Python与数据库、AJAX技术、模拟登录、文本与数据分析、网站测试、Scrapy爬虫框架、爬虫性能等多个主题。本书可作为高等职业院校计算机类专业的专业课教材,也可供计算机相关从业人员选用参考。
作者简介
耿兴隆,Autodesk中国认证考试中心首席专家,全面负责Autodesk中国官方认证考试大纲制定、题库建设、技术咨询和师资力量培训工作。其创作的很多教材成为国内具有引导性的旗帜作品,在国内相关专业方向图书创作领域具有举足轻重的地位。
目录
目录 项目一 Python 基础认知 ????????????????????????????????????????????????????????????????????????????????????.1 任务一 Python 概述 ???????????????????????????????????????????????????????????????????????????????????????????????????????.1 一、Python 简介 ??????????????????????????????????????????????????????????????????????????????????????????????????????.1 二、安装Python ??????????????????????????????????????????????????????????????????????????????????????????????????????.2 三、安装PyCharm ???????????????????????????????????????????????????????????????????????????????????????????????????.6 四、Python 语法规范 ???????????????????????????????????????????????????????????????????????????????????????????????.11 任务二 Python 命令的组成 ?????????????????????????????????????????????????????????????????????????????????????????????.13 一、基本符号 ?????????????????????????????????????????????????????????????????????????????????????????????????????????.14 二、常量与变量 ??????????????????????????????????????????????????????????????????????????????????????????????????????.16 三、数据类型 ?????????????????????????????????????????????????????????????????????????????????????????????????????????.19 四、功能符号 ?????????????????????????????????????????????????????????????????????????????????????????????????????????.24 任务三 程序结构 ?????????????????????????????????????????????????????????????????????????????????????????????????????????.26 一、表达式语句 ??????????????????????????????????????????????????????????????????????????????????????????????????????.26 二、顺序结构 ?????????????????????????????????????????????????????????????????????????????????????????????????????????.27 三、选择结构 ?????????????????????????????????????????????????????????????????????????????????????????????????????????.28 四、循环结构 ?????????????????????????????????????????????????????????????????????????????????????????????????????????.30 五、条件表达式 ??????????????????????????????????????????????????????????????????????????????????????????????????????.31 六、程序的流程控制 ????????????????????????????????????????????????????????????????????????????????????????????????.32 项目实战 ?????????????????????????????????????????????????????????????????????????????????????????????????????????????????????.33 实战 输出百度网址 ????????????????????????????????????????????????????????????????????????????????????????????????.33 项目二 网络爬虫基础认知 ????????????????????????????????????????????????????????????????????????????????.35 任务一 网络爬虫概述 ???????????????????????????????????????????????????????????????????????????????????????????????????.35 一、网络爬虫的基本原理 ??????????????????????????????????????????????????????????????????????????????????????????.36 二、网络爬虫系统框架 ?????????????????????????????????????????????????????????????????????????????????????????????.37 三、爬行策略 ?????????????????????????????????????????????????????????????????????????????????????????????????????????.37 四、网络爬虫的分类 ????????????????????????????????????????????????????????????????????????????????????????????????.38 五、开源网络爬虫框架/项目 ??????????????????????????????????????????????????????????????????????????????????????.39 任务二 HTTP ?????????????????????????????????????????????????????????????????????????????????????????????????????????????.41 一、HTTP 的工作原理 ?????????????????????????????????????????????????????????????????????????????????????????????.41 二、Urllib 模块库 ???????????????????????????????????????????????????????????????????????????????????????????????????.42 三、URL 定义 ???????????????????????????????????????????????????????????????????????????????????????????????????????.43 四、URL 编码设置 ?????????????????????????????????????????????????????????????????????????????????????????????????.47 任务三 网页请求过程 ???????????????????????????????????????????????????????????????????????????????????????????????????.50 一、发送请求报文 ??????????????????????????????????????????????????????????????????????????????????????????????????.51 二、返回响应 ????????????????????????????????????????????????????????????????????????????????????????????????????????.52 三、HTTP 消息 ??????????????????????????????????????????????????????????????????????????????????????????????????????.53 项目实战 ?????????????????????????????????????????????????????????????????????????????????????????????????????????????????????.54 实战一 搜索商品网址 ????????????????????????????????????????????????????????????????????????????????????????????.54 实战二 搜索食品价格网址 ??????????????????????????????????????????????????????????????????????????????????????.56 项目三 Urllib 请求模块库的应用 ????????????????????????????????????????????????????????????????????????.58 任务一 发送网页请求 ???????????????????????????????????????????????????????????????????????????????????????????????????.58 一、基本HTTP 请求 ???????????????????????????????????????????????????????????????????????????????????????????????.58 二、Request 网络请求 ?????????????????????????????????????????????????????????????????????????????????????????????.66 三、设置请求头 ?????????????????????????????????????????????????????????????????????????????????????????????????????.67 四、Handler 方法发送请求 ???????????????????????????????????????????????????????????????????????????????????????.69 五、设置代理IP ????????????????????????????????????????????????????????????????????????????????????????????????????.71 六、身份验证 ????????????????????????????????????????????????????????????????????????????????????????????????????????.73 任务二 网页下载 ?????????????????????????????????????????????????????????????????????????????????????????????????????????.77 一、网页结构 ????????????????????????????????????????????????????????????????????????????????????????????????????????.77 二、写入网页文件 ??????????????????????????????????????????????????????????????????????????????????????????????????.77 三、网页文件下载 ??????????????????????????????????????????????????????????????????????????????????????????????????.79 项目实战 ?????????????????????????????????????????????????????????????????????????????????????????????????????????????????????.82 实战一 下载Python 学习网址 ??????????????????????????????????????????????????????????????????????????????????.82 实战二 下载公司网页HTML 文件 ????????????????????????????????????????????????????????????????????????????.85 项目四 安装Urllib3 请求模块库并发送请求 ??????????????????????????????????????????????????????????.87 任务一 安装Urllib3 请求模块库 ??????????????????????????????????????????????????????????????????????????????????????.87 一、安装Anaconda ?????????????????????????????????????????????????????????????????????????????????????????????????.87 二、安装Urllib3 模块库 ???????????????????????????????????????????????????????????????????????????????????????????.92 任务二 发送请求 ?????????????????????????????????????????????????????????????????????????????????????????????????????????.95 一、创建代理对象 ??????????????????????????????????????????????????????????????????????????????????????????????????.96 二、请求方法 ????????????????????????????????????????????????????????????????????????????????????????????????????????.98 三、定义请求头 ?????????????????????????????????????????????????????????????????????????????????????????????????????.99 四、设置代理IP ???????????????????????????????????????????????????????????????????????????????????????????????????.101 五、自动重试 ???????????????????????????????????????????????????????????????????????????????????????????????????????.102 六、重定向 ??????????????????????????????????????????????????????????????????????????????????????????????????????????.103 项目实战 ????????????????????????????????????????????????????????????????????????????????????????????????????????????????????.104 实战 发送请求访问淘宝 ????????????????????????????????????????????????????????????????????????????????????????.104 项目五 Requests 请求模块库的应用 ?????????????????????????????????????????????????????????????????.106 任务一 网页请求 ???????????????????????????????????????????????????????????????????????????????????????????????????????.106 一、标准的HTTP 请求 ???????????????????????????????????????????????????????????????????????????????????????????.107 二、返回响应消息 ?????????????????????????????????????????????????????????????????????????????????????????????????.109 三、JSON 格式数据 ???????????????????????????????????????????????????????????????????????????????????????????????.114 任务二 发送请求方法 ?????????????????????????????????????????????????????????????????????????????????????????????????.117 一、发送GET 请求方法 ?????????????????????????????????????????????????????????????????????????????????????????.118 二、发送POST 请求方法 ????????????????????????????????????????????????????????????????????????????????????????.120 三、其他请求方法 ?????????????????????????????????????????????????????????????????????????????????????????????????.125 任务三 复杂网络请求 ?????????????????????????????????????????????????????????????????????????????????????????????????.126 一、复杂请求头 ????????????????????????????????????????????????????????????????????????????????????????????????????.126 二、上传文件 ???????????????????????????????????????????????????????????????????????????????????????????????????????.129 三、Cookies 验证 ??????????????????????????????????????????????????????????????????????????????????????????????????.131 四、会话保持 ???????????????????????????????????????????????????????????????????????????????????????????????????????.131 任务四 异常处理 ???????????????????????????????????????????????????????????????????????????????????????????????????????.133 一、try-except 语句 ????????????????????????????????????????????????????????????????????????????????????????????????.133 二、Urllib 异常处理模块 ?????????????????????????????????????????????????????????????????????????????????????????.134 三、Urllib3 异常处理模块 ???????????????????????????????????????????????????????????????????????????????????????.135 四、request 异常处理模块 ???????????????????????????????????????????????????????????????????????????????????????.135 项目实战 ???????????????????????????????????????????????????????????????????????????????????????????????????????????????????.138 实战 爬取豆瓣最受欢迎的影评网址 ?????????????????????????????????????????????????????????????????????????.138 项目六 解析网页 ???????????????????????????????????????????????????????????????????????????????????????????.141 任务一 正则表达式解析网页 ????????????????????????????????????????????????????????????????????????????????????????.141 一、正则表达式模式 ??????????????????????????????????????????????????????????????????????????????????????????????.142 二、使用re 模块实现正则表达式 ??????????????????????????????????????????????????????????????????????????????.143 三、字符串查找 ????????????????????????????????????????????????????????????????????????????????????????????????????.144 四、字符串替换 ????????????????????????????????????????????????????????????????????????????????????????????????????.148 五、字符串分割 ????????????????????????????????????????????????????????????????????????????????????????????????????.149 任务二 XPath 解析网页 ???????????????????????????????????????????????????????????????????????????????????????????????.150 一、XPath 概述 ????????????????????????????????????????????????????????????????????????????????????????????????????.150 二、XPath 网页解析 ??????????????????????????????????????????????????????????????????????????????????????????????.152 三、获取节点信息 ?????????????????????????????????????????????????????????????????????????????????????????????????.154 四、节点关系 ???????????????????????????????????????????????????????????????????????????????????????????????????????.160 五、查找节点信息 ?????????????????????????????????????????????????????????????????????????????????????????????????.162 六、属性节点 ???????????????????????????????????????????????????????????????????????????????????????????????????????.163 七、XPath 运算符 ?????????????????????????????????????????????????????????????????????????????????????????????????.165 八、XML 节点轴 ??????????????????????????????????????????????????????????????????????????????????????????????????.168 任务三 BeautifulSoup 解析网页 ??????????????????????????????????????????????????????????????????????????????????????.170 一、安装BeautifulSoup ???????????????????????????????????????????????????????????????????????????????????????????.171 二、创建BeautifulSoup 对象 ????????????????????????????????????????????????????????????????????????????????????.171 三、通过属性获取节点内容 ?????????????????????????????????????????????????????????????????????????????????????.173 四、根据节点关系获取节点 ?????????????????????????????????????????????????????????????????????????????????????.176 五、查找节点内容 ?????????????????????????????????????????????????????????????????????????????????????????????????.178 六、通过CSS 选择器查找节点内容 ???????????????????????????????????????????????????????????????????????????.182 项目实战 ????????????????????????????????????????????????????????????????????????????????????????????????????????????????????.183 实战一 获取查询网中河北省石家庄市的邮编区号 ???????????????????????????????????????????????????????.183 实战二 爬取销售热门图书名称 ???????????????????????????????????????????????????????????????????????????????.186 实战三 下载销售热门图书的图片 ????????????????????????????????????????????????????????????????????????????.188 项目七 Scrapy 网络爬虫框架 ???????????????????????????????????????????????????????????????????????????.190 任务一 Scrapy 网络爬虫框架基础认知 ?????????????????????????????????????????????????????????????????????????????.190 一、Scrapy 网络爬虫框架基础 ??????????????????????????????????????????????????????????????????????????????????.190 二、Scrapy 常用命令 ??????????????????????????????????????????????????????????????????????????????????????????????.192 三、创建Scrapy 项目 ?????????????????????????????????????????????????????????????????????????????????????????????.193 任务二 使用模板创建Spider 文件 ??????????????????????????????????????????????????????????????????????????????????.194 一、创建网络爬虫文件命令 ?????????????????????????????????????????????????????????????????????????????????????.195 二、创建basic 模板文件 ?????????????????????????????????????????????????????????????????????????????????????????.196 三、创建crawl 模板文件 ?????????????????????????????????????????????????????????????????????????????????????????.197 四、创建csvfeed 模板文件 ??????????????????????????????????????????????????????????????????????????????????????.198 五、创建xmlfeed 模板文件 ??????????????????????????????????????????????????????????????????????????????????????.198 任务三 Scrapy 网络爬虫文件 ?????????????????????????????????????????????????????????????????????????????????????????.199 一、Spider 类 ???????????????????????????????????????????????????????????????????????????????????????????????????????.199 二、配置网络爬虫 ?????????????????????????????????????????????????????????????????????????????????????????????????.201 三、启动网络爬虫 ?????????????????????????????????????????????????????????????????????????????????????????????????.202 四、提取数据 ???????????????????????????????????????????????????????????????????????????????????????????????????????.207 项目实战 ????????????????????????????????????????????????????????????????????????????????????????????????????????????????????.209 实战 提取景区名称 ??????????????????????????????????????????????????????????????????????????????????????????????.209
×
Close
添加到书单
加载中...
点此新建书单
×
Close
新建书单
标题:
简介:
蜀ICP备2024047804号
Copyright 版权所有 © jvwen.com 聚文网