数据采集与处理--聚文网

精选

¥5.83

世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版

¥5.39

正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册

¥8.58

简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版

¥5.83

世界文学名著全49册中小学生青少年课外书籍文学小说批发正版

¥4.95

全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷

¥8.69

父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册

¥24.2

好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册

¥7.15

幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书

¥11.55

用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书

¥19.8

少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版

¥64

科学真好玩

¥12.7

一年级下4册·读读童谣和儿歌

¥38.4

原生态新生代(传统木版年画的当代传承国际研讨会论文集)

¥11.14

法国经典中篇小说

¥11.32

上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)

¥22.05

猫的摇篮(精)

¥30.72

幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书

旧时风物(精)

三希堂三帖/墨林珍赏

寒山子庞居士诗帖/墨林珍赏

苕溪帖/墨林珍赏

楷书王维诗卷/墨林珍赏

兰亭序/墨林珍赏

祭侄文稿/墨林珍赏

蜀素帖/墨林珍赏

真草千字文/墨林珍赏

进宴仪轨(精)/中国古代舞乐域外图书

舞蹈音乐的基础理论与应用

内容简介

本书基于Python 3.10版本，以项目实战的方式系统地介绍了Python网络爬虫开发的相关知识，主要内容包括Python基础实战、网页数据采集实战、网页数据解析实战、并发技术实战、动态内容采集实战、爬虫数据存储实战、Scrapy爬虫框架实战等，通过多个实战任务的练习，让读者能优选限度地掌握Python网络爬虫的核心技术。为了方便读者学习，本书附有配套源代码、教学PPT、题库、教学视频、教学设计等资源。本书可作为高等院校计算机相关专业程序设计课程教材，也可供从事计算机爬虫应用开发的相关人员使用。

项目1 Python基础实战 1 任务1.1 Python开发环境搭建 2 1.1.1 在Windows系统中安装Python 2 1.1.2 在Linux系统中安装Python 4 1.1.3 安装PyCharm集成开发环境 5 任务1.2 从HTML文档中提取特定字符串 10 1.2.1 数值类型与变量 10 1.2.2 字符串 11 1.2.3 运算符 12 1.2.4 流程控制 13 任务1.3 用列表、字典等组织数据 16 1.3.1 列表（list） 17 1.3.2 元组（tuple） 17 1.3.3 字典（dict） 18 1.3.4 集合（set） 19 1.3.5 函数 20 任务1.4 基于正则表达式提取图片链接文本 23 1.4.1 模块和包 23 1.4.2 异常处理 26 1.4.3 正则表达式 28 任务1.5 从JSON文件中加载数据 31 1.5.1 类与对象 31 1.5.2 文件与目录操作 34 1.5.3 JSON 38 项目2 网页数据采集实战 43 任务2.1 利用工具爬取一个电商网页 43 2.1.1 爬虫的定义 44 2.1.2 爬虫的类型 44 2.1.3 与爬虫相关的网站文件 47 2.1.4 反爬虫应对策略 48 2.1.5 爬虫的合法性 50 任务2.2 基于urllib库爬取一个电商网页 57 任务2.3 urllib处理发送GET/POST请求 61 任务2.4 请求头伪装与代理服务器应用 66 2.4.1 请求头伪装 67 2.4.2 代理服务器 67 任务2.5 网络异常处理 73 2.5.1 URLError 73 2.5.2 HTTPError 74 任务2.6 基于requests库爬取电商网页 74 项目3 网页数据解析实战 79 任务3.1 HTML基础 79 3.1.1 HTML网页的结构 80 3.1.2 Chrome浏览器的DevTools 81 任务3.2 基于正则表达式的网页数据解析 85 任务3.3 XPath应用 88 3.3.1 XPath简介 89 3.3.2 lxml简介 94 任务3.4 Beautiful Soup解析数据 99 任务3.5 JSON数据解析 106 项目4 并发技术实战 112 任务4.1 基于进程的并发爬虫 112 4.1.1 并发原理 113 4.1.2 进程（Process） 113 4.1.3 Python的多进程并发编程 114 任务4.2 基于queue模块的多线程爬虫 122 4.2.1 线程（Thread） 123 4.2.2 Python的多线程并发编程 123 任务4.3 基于协程的并发爬虫 129 任务4.4 历史天气并发爬取 131 项目5 动态内容采集实战 139 任务5.1 动态网页基础 139 任务5.2 Selenium的安装配置 144 任务5.3 基于Selenium的动态网页爬取 148 任务5.4 基于Selenium的模拟登录 150 任务5.5 验证码的识别处理 154 5.5.1 验证码基础 154 5.5.2 Pytesseract简介 155 5.5.3 PIL简介 156 任务5.6 基于Selenium的招聘职位获取 159 项目6 爬虫数据存储实战 165 任务6.1 MongoDB基础 165 6.1.1 MongoDB的安装 166 6.1.2 MongoDB的基本操作 170 任务6.2 基于PyMongo的爬虫数据存储 174 任务6.3 Redis数据库基础 179 6.3.1 Redis的安装 180 6.3.2 Redis的操作命令 182 任务6.4 基于redis模块的爬虫数据存储 184 项目7 Scrapy爬虫框架实战 188 任务7.1 Scrapy爬虫框架基础 188 7.1.1 Scrapy爬虫框架简介 189 7.1.2 Scrapy项目创建 191 7.1.3 Scrapy常用命令 192 任务7.2 定义Spider爬取斗鱼直播平台数据 195 7.2.1 Item类简介 196 7.2.2 Spider类简介 196 任务7.3 自定义爬虫中间件爬取众图网数据 202 7.3.1 Scrapy的settings文件 202 7.3.2 Downloader Middlewares 203 任务7.4 CrawlSpider自动爬取数据 213 7.4.1 CrawlSpider 213 7.4.2 Rule 214 7.4.3 LinkExtractor 215 任务7.5 应用Item Pipeline进行后期数据处理 219 任务7.6 综合实训――百度科学百科数据爬取 222

数据采集与处理

库存： {{selectedSku?.stock}} 库存充足

上架到店铺