您好,欢迎来到聚文网。 登录 免费注册
Scrapy网络爬虫开发实战

Scrapy网络爬虫开发实战

  • 字数: 290
  • 出版社: 清华大学
  • 作者: 编者:罗刚|
  • 商品条码: 9787302658580
  • 版次: 1
  • 开本: 16开
  • 页数: 173
  • 出版年份: 2024
  • 印次: 1
定价:¥69.8 销售价:登录后查看价格  ¥{{selectedSku?.salePrice}} 
库存: {{selectedSku?.stock}} 库存充足
{{item.title}}:
{{its.name}}
精选
内容简介
本书介绍如何学习和使 用流行的Scrapy框架开发网 络爬虫应用,主要内容使用 Python开发网络爬虫,识别 网页的编码,结构化信息的 提取,Scrapy爬虫的示例使 用,Scrapy Playwright抓取 动态JS网站,将抓取的数据 保存到数据库,部署、调度 和运行Scrapy爬虫等。 本书适合作为高等院校 计算机、软件工程专业本科 生、研究生的参考书目,也 适用于对Python网络爬虫领 域感兴趣的人士参考阅读。
作者简介
罗刚,2004年开始创建猎兔搜索技术,10多年来一直从事搜索引擎、自然语言处理、图像识别等技术的研发和团队管理工作。 曾经担任新东方公司研究员,国防大学科研处技术顾问,工信部舆情开发顾问,红象云腾公司技术顾问,青岛大快搜索公司首席架构师,中和云技术合伙人,东南大学社会导师,北京石油化工学院社会导师。近几年同时开展了学员就业培训工作,成功培训了50多位专业的软件工程师,培养的工程师目前分布在百度、美团、Nuance、云知声、摄星等相关公司研发中心
目录
第1章 网络爬虫快速入门 1.1 各种网络爬虫 1.1.1 通用爬虫 1.1.2 定向爬虫 1.2 网络爬虫基本技术 1.3 Windows命令行 1.4 上手Scrapy网络爬虫开发 1.5 本章小结 第2章 Python开发快速入门 2.1 变量 2.2 注释 2.3 简单数据类型 2.3.1 数值 2.3.2 字符串 2.3.3 数组 2.4 字面值 2.5 控制流 2.5.1 if语句 2.5.2 循环 2.6 列表 2.7 元组 2.8 集合 2.9 字典 2.10 函数 2.11 模块 2.12 检查字符串是否包含子字符串 2.13 面向对象编程 2.14 泛型 2.15 日志记录 2.16 数据库 2.17 本章小结 第3章 使用Python开发网络爬虫 3.1 使用BeautifulSoup实现定向采集 3.2 URL基础 3.2.1 URI 3.2.2 解析相对地址 3.2.3 DNS解析 3.3 网络爬虫抓取原理 3.4 爬虫架构 3.4.1 基本架构 3.4.2 分布式爬虫架构 3.4.3 垂直爬虫架构 3.5 下载网页 3.5.1 HTTP 3.5.2 HTML文档 3.5.3 使用curl命令下载网络资源 3.5.4 使用wget命令下载网页 3.5.5 下载静态网页 3.5.6 使用Selenium下载动态内容 3.5.7 重试

蜀ICP备2024047804号

Copyright 版权所有 © jvwen.com 聚文网