Python爬虫大数据采集与挖掘(第2版·微课视频版)--聚文网

精选

¥5.83

世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版

¥5.39

正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册

¥8.58

简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版

¥5.83

世界文学名著全49册中小学生青少年课外书籍文学小说批发正版

¥4.95

全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷

¥8.69

父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册

¥24.2

好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册

¥7.15

幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书

¥11.55

用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书

¥19.8

少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版

¥64

科学真好玩

¥12.7

一年级下4册·读读童谣和儿歌

¥38.4

原生态新生代(传统木版年画的当代传承国际研讨会论文集)

¥11.14

法国经典中篇小说

¥11.32

上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)

¥22.05

猫的摇篮(精)

¥30.72

幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书

旧时风物(精)

三希堂三帖/墨林珍赏

寒山子庞居士诗帖/墨林珍赏

苕溪帖/墨林珍赏

楷书王维诗卷/墨林珍赏

兰亭序/墨林珍赏

祭侄文稿/墨林珍赏

蜀素帖/墨林珍赏

真草千字文/墨林珍赏

进宴仪轨(精)/中国古代舞乐域外图书

舞蹈音乐的基础理论与应用

内容简介

\\\"本书围绕大数据采集与挖掘，对采集技术的相关基础、技术原理、Python实现技术、大数据挖掘与应用方法进行了系统介绍。书中全面、完整地覆盖了各种类型的网络爬虫及相关的信息处理挖掘技术，并提供了45个与爬虫技术和应用相关的Python程序。全书共分为四部分，即概述、基础篇、技术与实现篇、大数据挖掘与应用篇。第一部分（第1章）是概述，指出利用Python采集互联网大数据的重要性，介绍了相关技术研究、技术体系、采集技术的合规性及应用现状等，分析了大模型对互联网大数据技术的影响；第二部分（第2、3章）是基础篇，包括Web服务器的应用架构以及HTTP、Robots、HTML、页面编码等相关协议和规范；第三部分（第4~10章）是技术与实现篇，全面介绍普通网络爬虫技术、动态页面采集方法、主题爬虫技术、Deep Web爬虫、微博信息采集、Web信息提取以及反爬虫技术等，内容涵盖各种爬虫技术实现方法及Python实例；第四部分（第11、12章）是大数据挖掘与应用篇，介绍文本、情感、社交网络和时间序列等典型大数据处理与挖掘技术及应用模式，并以新闻舆情监测、 Web自动化测试、酒店评论文本挖掘为例介绍Python爬虫应用构建方法，将本书介绍的一些关键技术、模型和工具贯穿在一起。 \\\"

源码下载额外赠送的资源目录 第一部分概述第1章大数据采集与挖掘概述 1.1互联网大数据与采集 1.1.1互联网大数据来源 1.1.2互联网大数据的特征 1.2Python爬虫大数据采集技术的重要性 1.3爬虫技术研究及应用现状 1.4爬虫技术的应用场景 1.5爬虫大数据采集与挖掘的技术体系 1.5.1技术体系构成 1.5.2相关技术 1.5.3爬虫的5个技术特性 1.5.4技术评价方法 1.6爬虫大数据采集与挖掘的合规性 1.7爬虫大数据采集与挖掘技术展望 1.7.1爬虫采集技术展望 1.7.2大模型对互联网大数据技术的影响思考题第二部分基础篇第2章Web页面及相关处理技术 2.1HTML规范 2.1.1HTML标签 2.1.2HTML整体结构 2.1.3CSS简述 2.1.4常用标签 2.1.5HTML的版本进化 2.2编码体系与规范 2.2.1ASCII 2.2.2gb2312/gbk 2.2.3unicode 2.2.4utf8 2.2.5网页中的编码和Python处理 2.3Python正则表达式 2.4相关的Python程序基础思考题第3章Web应用架构与协议 3.1常用的Web服务器软件 3.1.1流行的Web服务器软件 3.1.2在Python中配置Web服务器 3.2Web服务器的应用架构 3.2.1典型应用架构 3.2.2Web页面的类型 3.2.3页面文件的组织方式 3.3Robots协议 3.3.1Robots协议的来历 3.3.2Robots协议的规范与实现 3.4HTTP 3.4.1HTTP版本的技术特性 3.4.2HTTP报文 3.4.3HTTP头部 3.4.4HTTP状态码 3.4.5HTTPS 3.5状态保持技术 3.5.1Cookie 3.5.2Session 思考题第三部分技术与实现篇第4章普通爬虫页面采集技术与Python实现 4.1普通爬虫的体系架构 4.2Web服务器连接器 4.2.1整体处理过程 4.2.2DNS缓存 4.2.3requests/response的使用方法 4.2.4错误和异常的处理 4.3超链接及域名提取与过滤 4.3.1超链接的类型 4.3.2提取方法 4.3.3遵守Robots协议的友好爬虫 4.4爬行策略与实现 4.4.1爬行策略及设计方法 4.4.2深度优先策略和宽度优先策略 4.4.3基于PageRank的重要性排序 4.4.4其他策略 4.4.5爬行策略设计的综合考虑 4.5爬虫的多线程技术思考题第5章动态页面采集技术与Python实现 5.1动态页面内容的生成与交互 5.1.1页面内容的生成方式 5.1.2动态页面交互的实现 5.2动态页面采集技术类型 5.3使用带参数的URL 5.4利用Cookie和Session 5.5使用Ajax——以评论型页面为例 5.5.1获取URL地址 5.5.2获取并发送动态请求参数 5.6模拟浏览器——以自动登录邮箱为例思考题第6章Web信息提取与Python实现 6.1Web信息提取任务及要求 6.2Web页面内容提取的思路 6.2.1DOM树 6.2.2提取方法 6.3基于HTML结构的内容提取方法 6.3.1html.parser 6.3.2lxml 6.3.3html5lib 6.3.4BeautifulSoup 6.3.5PyQuery 6.4基于统计的Web内容提取方法 6.5基于JSON的Web信息提取 6.6Web信息存储思考题第7章主题爬虫页面采集技术与Python实现 7.1主题爬虫的使用场景 7.2主题爬虫技术框架 7.3主题及其表示 7.4相关度计算 7.4.1主题相关度计算 7.4.2链接相关度估算 7.4.3内容相关度计算 7.5实例：特定新闻主题的采集思考题第8章Deep Web爬虫与Python实现 8.1相关概念 8.2Deep Web的特征和采集要求 8.3Deep Web内容获取技术架构 8.3.1领域本体知识库 8.3.2寻找表单 8.3.3表单处理 8.3.4结果处理 8.4图书信息采集思考题第9章微博信息采集与Python实现 9.1微博信息采集方法概述 9.2微博开放平台授权与测试 9.3在Python中调用微博API采集数据 9.3.1流程介绍 9.3.2微博API及使用方法 9.3.3采集微博用户个人信息 9.3.4采集微博博文 9.3.5微博API的限制 9.4通过爬虫采集微博信息 9.4.1爬虫采集微博的方法 9.4.2微博热搜的采集方法与Python实现思考题第10章反爬虫技术与爬虫对抗技术 10.1两种技术的概述 10.2反爬虫技术 10.2.1爬虫检测技术 10.2.2爬虫阻断技术 10.3爬虫对抗技术思考题第四部分大数据挖掘与应用篇第11章互联网大数据处理与挖掘技术 11.1文本预处理 11.1.1词汇切分 11.1.2停用词过滤 11.1.3词形规范化 11.1.4Python开源库jieba的使用 11.2文本的向量空间模型 11.2.1特征选择 11.2.2模型表示 11.2.3使用Python构建向量空间表示 11.3文本的分布式表示 11.3.1相关方法 11.3.2Doc2Vec 11.4文本分类及实现技术 11.4.1分类技术概要 11.4.2分类器技术 11.4.3新闻分类的Python实现 11.5聚类算法 11.6主题及其实现技术 11.6.1主题的定义 11.6.2基于向量空间的主题构建 11.6.3LDA主题模型 11.6.4LDA主题模型的Python实现 11.7文本情感分析 11.7.1基于机器学习的方法 11.7.2基于规则的方法 11.8社交网络分析 11.8.1社交网络表示与可视化 11.8.2社区发现算法与使用 11.8.3分析工具Pajek 11.9时间序列挖掘 11.9.1时间序列及其挖掘任务 11.9.2时间序列预测的思路 11.9.3时间序列预测的例子 11.10大数据可视化技术 11.10.1大数据可视化方法概述 11.10.2Python开源库的使用思考题第12章互联网大数据采集与挖掘技术的应用 12.1常见应用模式 12.2新闻舆情监测 12.2.1目标任务 12.2.2总体思路 12.2.3新闻内容采集与提取 12.2.4新闻分析 12.3Web网站自动化测试 12.3.1目标任务 12.3.2总体思路 12.3.3Python程序设计 12.4酒店评论文本挖掘 12.4.1目标任务 12.4.2总体思路 12.4.3Python程序设计思考题附录A代码与数据附录B相关包索引附录C爬虫框架参考文献

Python爬虫大数据采集与挖掘(第2版·微课视频版)

库存： {{selectedSku?.stock}} 库存充足