基于PYTHON的WEB大数据爬取实战指南--聚文网

精选

¥5.83

世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版

¥5.39

正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册

¥8.58

简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版

¥5.83

世界文学名著全49册中小学生青少年课外书籍文学小说批发正版

¥4.95

全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷

¥8.69

父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册

¥24.2

好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册

¥7.15

幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书

¥11.55

用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书

¥19.8

少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版

¥64

科学真好玩

¥12.7

一年级下4册·读读童谣和儿歌

¥38.4

原生态新生代(传统木版年画的当代传承国际研讨会论文集)

¥11.14

法国经典中篇小说

¥11.32

上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)

¥22.05

猫的摇篮(精)

¥30.72

幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书

旧时风物(精)

三希堂三帖/墨林珍赏

寒山子庞居士诗帖/墨林珍赏

苕溪帖/墨林珍赏

楷书王维诗卷/墨林珍赏

兰亭序/墨林珍赏

祭侄文稿/墨林珍赏

蜀素帖/墨林珍赏

真草千字文/墨林珍赏

进宴仪轨(精)/中国古代舞乐域外图书

舞蹈音乐的基础理论与应用

内容简介

本书主要是基于Python的Web大数据爬取实战指南，选题内容包括基础知识和通过Python爬取Web网页数据两大部分。下图是PythonWeb数据采集的结构图，主要包括三个部分：网络传播技术、信息提取技术和数据存储技术。网络传播通常是使用HTTP进行，常用的传播方式包括HTML、XML、Json、Ajax和纯文本等；信息提取技术主要可以通过Python语言、R语言、Java语言等进行获取，其中主要包括的技术包括：正则表达式、XPath技术、Selenium、BeautifulSoup等；数据存储技术主要是存储爬取的数据信息，主要包括SQL数据库、纯文本格式等。

目录
部分基础知识
章概述 3
1.1 Web大数据爬取 3
1.2 各章概要 5
1.3 如何阅读本书 6
第2章 Python基础知识 8
2.1 Python语言简介 8
2.2 Python安装过程 9
2.3 Python基础知识 14
2.4 条件语句和循环语句 29
2.5 字符串操作 37
2.6 文件操作 43
2.7 局部变量、全局变量与导入块变量 48
2.8 多线程编程 52
第3章 HTML基础知识及DOM树结构 56
3.1 浏览器显示HTML源代码 58
3.2 HTML语法规则 61
3.3 HTML DOM树型结构 71
3.4 XPath技术 74
第4章 XML基础知识 76
4.1 基础知识 76
4.2 XML文档示例 78
4.3 XML语法规则 81
4.4 XML基本用法 84
4.5 Python处理XML数据 89
第二部分基于Python的数据爬取
第5章 Python网页爬虫的相关介绍 97
5.1 概述 97
5.2 正则表达式 98
5.3 Selenium 99
5.4 BeautifuISoup 100
5.5 Scrapy 100
5.6 数据存储技术 104
第6章基于正则表达式的Web爬虫 107
6.1 正则表达式 107
6.2 常用的网页爬取正则表达式 117
6.3 Python爬虫常用函数 128
6.4 案例分析1：使用正则表达式获取新浪博客文章 141
6.5 案例分析2：使用正则表达式爬取百科知识 147
第7章基于Selenium的Web爬虫 162
7.1 Selenium安装过程 163
7.2 Selenium常见元素定位方法和操作 170
7.3 案例分析1：Selenium爬取百科知识 182
7.4 案例分析2：Selenium爬取PubMed生物医学摘要信息 186
7.5 案例分析3：Selenium爬取图片 193
第8章基于Selenium的自动登录爬虫 201
8.1 Python自动登录技术 201
8.2 新浪微博介绍 206
8.3 案例分析1：Selenium自动登录163邮箱 209
8.4 案例分析2：Selenium自动登录爬取新浪微博知识 213
第9章基于BeautifuISoup的Web爬虫 228
9.1 概述及安装 228
9.2 BeautifuISoup具体用法 231
0章数据库存储技术 244
10.1 数据库存储的基本技术 244
10.2 MySQL数据库知识 245
10.3 Python数据库知识 253
10.4 案例分析：Selenium爬取数据并存储至数据库中 262

摘要

    部分基础知识
    章概述
    随着计算机和互联网技术的飞速发展和广泛普及，互联网已经成为人类获取知识的很大平台。YouTube网站的所有用户在一分钟内可以累计上传约72小时的视频，Facebook社交网站每秒就有约41000个帖子发布。预计到2020年时，优选互联网的数据总量将会超过40ZB。如何从网络中高效精准地抽取有用信息已成为智能信息处理领域的重要研究目标。
    1.1 Web大数据爬取
    Web挖掘是数据挖掘在Web上的应用，它利用数据挖掘技术从与WWW（worldwideweb，万维网）相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息，涉及Web技术、数据挖掘、计算机语言学、信息学等多个领域，是一项综合技术。其中Web内容挖掘是指对Web页面内容及后台交易数据库进行挖掘，从Web文档内容中获取有用知识的过程。图1.1为Web大数据挖掘与分析流程图。
    同时还可以对Web的组织结构和链接关系进行挖掘，从人为的链接结构中获取有用的知识。由于文档之间的互连，WWW能够提供除文档内容之外的有用信息。利用这些信息，可以对页面进行排序，发现重要的页面。Web使用记录挖掘是通过挖掘相应站点的日志文件和相关数据来发现该站点上的浏览者的行为模式，获取有价值的信息的过程。
    Web挖掘的目标是从Web的超链接结构、网页内容和使用日志中探寻有用的信息。虽然Web挖掘使用了许多数据挖掘技术，但它并不仅仅是传统数据挖掘的一个简单应用。在过去的20年中，许多新的挖掘任务和算法被相继发明。依据在挖掘过程中使用的数据类别，Web挖掘任务可以被划分为三种主要类型：Web结构挖掘、Web内容挖掘和Web使用挖掘。
    根据数据标注情况，数据挖掘可划分为有监督学习（包括分类模型、预测模型）、部分监督学习和无监督学习（关联分析、聚类分析），如图1.2所示。
    图1.3为网络数据采集结构图，主要包括三个部分：网络传播技术、信息提取技术和数据存储技术。其中，网络传播通常是使用HTTP进行，常用的传播方式包括XML、HTML、Json、Ajax和纯文本等；信息提取技术主要可以通过R语言、Python语言、Java语言等进行获取，其中主要的技术包括XPath技术、BeautifulSoup、Selenium、正则表达式等；数据存储技术主要是存储爬取的数据信息，主要包括SQL数据库、CSV格式和纯文本格式等。
    1.2 各章概要
    本书主要由两部分组成。部分，包括~4章，介绍基于Python的Web大数据爬取的基础知识，主要是Python语言的基础知识和XML/HTML的相关知识。第二部分，包括第5~10章，介绍基于Python的Web大数据爬取的技术，主要是通过正则表达式、Selenium和BeautifulSoup技术来实现爬取，同时通过纯文本或数据库进行存储。接下来我们对每一章的内容做一个简单概要。
    章为概述：主要介绍Web大数据爬取知识、数据挖掘分类以及网络数据采集的流程。
    第2章为Python基础知识：主要介绍Python在Windows下的安装过程及Python的基础用法，其中Python的基础知识从函数、条件语句、循环语句、字符串操作、文件操作及线程几个方面进行讲解。
    第3章为HTML基础知识及DOM树结构：HTML通过标记符号来标记要显示的网页中的各个部分。Web大数据爬取主要是爬取各种网页数据，其中HTML的语法规则和结构分析是很好基础的知识。
    第4章为XML基础知识：XML是可扩展标记语言，是一种用于标记电子文件并使其具有结构性的标记语言。该章主要介绍XML的基础知识，包括XML树结构、XML数据存储等知识。
    第5章为Python网页爬虫的相关介绍：在大数据时代，自动化数据爬取和文本挖掘技术为各专业领域的研究者提供了靠前的强大工具和方法。
    第6章为基于正则表达式的Web爬虫：主要简单介绍正则表达式的含义、常用的网页爬取正则表达式、Python爬虫常用函数，以及使用正则表达式的方法获取新浪微博客文章、爬取百科知识的案例。
    第7章为基于Selenium的Web爬虫：主要介绍Selenium的安装过程、常用的定位网页中元素的策略，并通过三个案例分析详细介绍基于Selenium的Web爬虫。
    第8章为基于Selenium的自动登录爬虫：主要介绍Python自动登录技术，通过登录网站后，再进行网页爬取，同时介绍新浪微博的相关知识及使用价值。
    第9章为基于BeautifulSoup的Web爬虫：主要介绍BeautifulSoup爬虫技术，其中包括安装过程及相关基础知识。
    0章为数据库存储技术：主要讲述数据库存储的基本技术，重点介绍MySQL数据库相关知识及Python调用MySQL的方法，并通过一个案例进行讲解。
    1.3 如何阅读本书
    本书是一部基于Python的Web大数据爬取的教科书和实战指南，适合计算机科学、信息科学、软件工程、大数据金融、工程统计和社会科学等专业的学生使用；同时它也可以作为对Web爬取、数据挖掘、大数据、金融工程、数据分析、文本挖掘、统计分析等领域感兴趣的科研工作者或实践人员的教材，从而指导读者进行编程操作。
    建议读者结合我们的另一部书——《Web大数据数据预处理与分析技术研究》一起阅读。该书主要是关于数据清洗、数据预处理和数据分析的，同时结合所爬取的语料和Python工具讲解详细的分析过程。
    致教师：本书可以结合另一部书——《Web大数据数据预处理与分析技术研究》作为Web数据挖掘和数据分析的课程教科书。教学计划可以分为两种。如果学生具有良好的计算机相关知识、Python知识或数据挖掘、数据分析学习背景，则可以将其作为实战课程，结合实际完成书中相应的案例分析，从而提升代码能力和数据分析能力。如果学生不具备这些基础知识，则教师可以先详细讲解本书的部分基础知识，然后让学生课后书写相关代码，同时也可以给学生普及Web数据挖掘和大数据分析的相关知识。

基于PYTHON的WEB大数据爬取实战指南

库存： {{selectedSku?.stock}} 库存充足

上架到店铺