您好,欢迎来到聚文网。
登录
免费注册
网站首页
|
搜索
热搜:
磁力片
|
漫画
|
购物车
0
我的订单
商品分类
首页
幼儿
文学
社科
教辅
生活
销量榜
Scrapy网络爬虫开发实战
字数: 290000
装帧: 平装
出版社: 清华大学出版社
出版日期: 2024-06-01
商品条码: 9787302658580
版次: 1
开本: 16开
页数: 184
出版年份: 2024
定价:
¥69.8
销售价:
登录后查看价格
¥{{selectedSku?.salePrice}}
库存:
{{selectedSku?.stock}}
库存充足
{{item.title}}:
{{its.name}}
加入购物车
立即购买
加入书单
收藏
精选
¥5.83
世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版
¥5.39
正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册
¥8.58
简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版
¥5.83
世界文学名著全49册中小学生青少年课外书籍文学小说批发正版
¥4.95
全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷
¥8.69
父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册
¥24.2
好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册
¥7.15
幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书
¥11.55
用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书
¥19.8
少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版
¥64
科学真好玩
¥12.7
一年级下4册·读读童谣和儿歌
¥38.4
原生态新生代(传统木版年画的当代传承国际研讨会论文集)
¥11.14
法国经典中篇小说
¥11.32
上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)
¥21.56
猫的摇篮(精)
¥30.72
幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书
¥24.94
旧时风物(精)
¥12.04
三希堂三帖/墨林珍赏
¥6.88
寒山子庞居士诗帖/墨林珍赏
¥6.88
苕溪帖/墨林珍赏
¥6.88
楷书王维诗卷/墨林珍赏
¥9.46
兰亭序/墨林珍赏
¥7.74
祭侄文稿/墨林珍赏
¥7.74
蜀素帖/墨林珍赏
¥12.04
真草千字文/墨林珍赏
¥114.4
进宴仪轨(精)/中国古代舞乐域外图书
¥24.94
舞蹈音乐的基础理论与应用
内容简介
本书介绍如何学习和使用流行的Scrapy框架开发网络爬虫应用,主要内容使用Python开发网络爬虫,识别网页的编码,结构化信息的提取,Scrapy爬虫的示例使用,Scrapy Playwright抓取动态JS网站,将抓取的数据保存到数据库,部署、调度和运行Scrapy爬虫等。
本书适合作为高等院校计算机、软件工程专业本科生、研究生的参考书目,也适用于对Python网络爬虫领域感兴趣的人士参考阅读。
作者简介
罗刚,2004年开始创建猎兔搜索技术,10多年来一直从事搜索引擎、自然语言处理、图像识别等技术的研发和团队管理工作。 曾经担任新东方公司研究员,国防大学科研处技术顾问,工信部舆情开发顾问,红象云腾公司技术顾问,青岛大快搜索公司首席架构师,中和云技术合伙人,东南大学社会导师,北京石油化工学院社会导师。近几年同时开展了学员就业培训工作,成功培训了50多位专业的软件工程师,培养的工程师目前分布在百度、美团、Nuance、云知声、摄星等相关公司研发中心。
目录
第1章网络爬虫快速入门
1.1各种网络爬虫
1.1.1通用爬虫
1.1.2定向爬虫
1.2网络爬虫基本技术
1.3Windows命令行
1.4上手Scrapy网络爬虫开发
1.5本章小结
第2章Python开发快速入门
2.1变量
2.2注释
2.3简单数据类型
2.3.1数值
2.3.2字符串
2.3.3数组
2.4字面值
2.5控制流
2.5.1if语句
2.5.2循环
2.6列表
2.7元组
2.8集合
2.9字典
2.10函数
2.11模块
2.12检查字符串是否包含子字符串
2.13面向对象编程
2.14泛型
2.15日志记录
2.16数据库
2.17本章小结
第3章使用Python开发网络爬虫
3.1使用BeautifulSoup实现定向采集
3.2URL基础
3.2.1URI
3.2.2解析相对地址
3.2.3DNS解析
3.3网络爬虫抓取原理
3.4爬虫架构
3.4.1基本架构
3.4.2分布式爬虫架构
3.4.3垂直爬虫架构
3.5下载网页
3.5.1HTTP
3.5.2HTML文档
3.5.3使用curl命令下载网络资源
3.5.4使用wget命令下载网页
3.5.5下载静态网页
3.5.6使用Selenium下载动态内容
3.5.7重试
3.6下载图片
3.7网络爬虫的遍历与实现
3.8robots协议
3.9连接池
3.10URL地址查新
3.10.1Redis数据库
3.10.2布隆过滤器
3.11抓取RSS
3.12网页更新
3.13进度条
3.14垂直行业抓取
3.15抓取的应对方法
3.15.1模拟浏览器访问
3.15.2使用代理IP
3.15.3抓取需要登录的网页
3.16保存信息
3.16.1SQLite数据库
3.16.2MySQL数据库
3.16.3MongoDB数据库
3.16.4存入Elasticsearch搜索引擎
3.17本章小结
第4章从互联网提取信息
4.1识别网页的编码
4.1.1二进制流的编码
4.1.2识别编码的整体流程
4.2正则表达式
4.3结构化信息的提取
4.3.1解析JSON
4.3.2解析XML
4.3.3XML接口
4.3.4lxml处理网页
4.3.5使用XPath提取信息
4.3.6在Chrome浏览器中查找Selenium WebDriver的XPath
4.3.7CSS选择器
4.3.8使用Parsel
4.3.9提取文本
4.3.10网页正文提取
4.4从文件提取信息
4.5本章小结
第5章使用Scrapy开发爬虫
5.1一个示例爬虫的演练
5.2Scrapy Playwright指南:渲染和抓取动态JS网站
……
×
Close
添加到书单
加载中...
点此新建书单
×
Close
新建书单
标题:
简介:
蜀ICP备2024047804号
Copyright 版权所有 © jvwen.com 聚文网