您好,欢迎来到聚文网。 登录 免费注册
Python文本分析

Python文本分析

  • 字数: 565000
  • 装帧: 平装
  • 出版社: 中国电力出版社
  • 作者: (美)延斯·阿尔布雷希特,(美)西达尔特·拉马钱德兰,(美)克里斯蒂安·温克勒
  • 出版日期: 2022-08-01
  • 商品条码: 9787519864446
  • 版次: 1
  • 开本: 16开
  • 页数: 440
  • 出版年份: 2022
定价:¥128 销售价:登录后查看价格  ¥{{selectedSku?.salePrice}} 
库存: {{selectedSku?.stock}} 库存充足
{{item.title}}:
{{its.name}}
精选
内容简介
本书的主要内容有:提取API与网页的数据。统计分析和机器学习的文本数据预处理。机器学习分类、主题建模与摘要。解释AI模型与分类的结果。利用单词嵌入,探索及可视化语义相似性。分析产品评论中的客户情感。根据命名实体及其关系创建知识图。
目录
前言1
第1章洞悉文本数据11
1.1本章内容概要11
1.2探索性数据分析12
1.3数据集简介13
1.4案例:使用Pandas获取数据概要14
1.4.1计算列的汇总统计结果15
1.4.2检查缺少的数据16
1.4.3绘制值的分布图17
1.4.4比较各个类别的分布18
1.4.5可视化一段时间内的变化19
1.5案例:构建简单的文本预处理流水线21
1.5.1使用正则表达式分词21
1.5.2删除停用词22
1.5.3通过一行代码处理流水线24
1.6词频分析案例26
1.6.1案例:使用Counter统计单词个数26
1.6.2案例:创建词频图29
1.6.3案例:创建词云30
1.6.4案例:TF-IDF排名32
1.7案例:查找上下文关键字35
1.8案例:n元语法分析37
1.9案例:比较不同时间段和类别的词频40
1.9.1创建词频时间表40
1.9.2创建词频热图42
1.10小结44
第2章利用API提取文本45
2.1本章内容概要45
2.2应用程序编程接口45
2.3案例:使用requests模块通过API提取数据47
2.3.1分页52
2.3.2速率53
2.4案例:使用Tweepy提取推特数据57
2.4.1获取凭证58
2.4.2安装与配置Tweepy59
2.4.3通过SearchAPI提取数据60
2.4.4从用户的时间线中提取数据64
2.4.5通过流API提取数据66
2.5小结69
第3章网页抓取与数据提取71
3.1本章内容概要71
3.2抓取网页与提取数据72
3.3路透社新闻存档简介73
3.4URL生成75
3.5案例:下载和解读robots.txt76
3.6案例:从sitemap.xml中寻找URL77
3.7案例:通过RSS查找URL79
3.8下载数据81
3.9案例:使用Python下载HTML页面82
3.10案例:利用wget下载HTML页面83
3.11提取半结构化数据84
3.12案例:通过正则表达式提取数据85
3.13案例:使用HTML解析器提取数据86
3.14案例:爬虫94
3.14.1案例介绍94
3.14.2错误处理与生产级质量的软件97
3.15基于密度的文本提取98
3.15.1利用Readability读取路透社的内容98
3.15.2总结基于密度的文本提取100
3.16一体化解决方案100
3.17案例:使用Scrapy抓取路透社的存档101
3.18爬虫面临的难题103
3.19总结和建议104
第4章准备统计和机器学习的文本数据105
4.1本章内容概要105
4.2数据预处理流水线106
4.3数据集介绍:RedditSelf-Posts107
4.3.1将数据加载到Pandas107
4.3.2案例:标准化属性名称107
4.3.3保存和加载数据框109
4.4清理文本数据110
4.4.1案例:使用正则表达式识别噪声111
4.4.2案例:使用正则表达式剔除噪声113
4.4.3案例:使用textacy规范化字符115
4.4.4案例:使用textacy根据模式遮挡数据116
4.5分词118
4.5.1案例:使用正则表达式分词118
4.5.2NLTK分词120
4.5.3分词建议120
4.6spaCy的语言处理121
4.6.1实例化流水线122
4.6.2处理文本123
……

蜀ICP备2024047804号

Copyright 版权所有 © jvwen.com 聚文网