您好,欢迎来到聚文网。 登录 免费注册
Python 3:语料库技术与应用

Python 3:语料库技术与应用

  • 字数: 232000
  • 装帧: 平装
  • 出版社: 厦门大学出版社
  • 作者: 陆晓蕾,倪斌 著
  • 出版日期: 2021-01-01
  • 商品条码: 9787561577271
  • 版次: 1
  • 开本: 16开
  • 页数: 212
  • 出版年份: 2021
定价:¥45 销售价:登录后查看价格  ¥{{selectedSku?.salePrice}} 
库存: {{selectedSku?.stock}} 库存充足
{{item.title}}:
{{its.name}}
精选
内容简介
本书介绍了基于Python 3的语料库相关技术与应用,内容包括语料自动获取与语料分析实践。全书分为理论篇和实践篇,理论篇主要介绍了如何将Python 3应用到语料自动获取、存储与读取、清洗与预处理、语料检索与分析等典型应用场景,其中第4章还涉及部分自然语言处理的内容,包括情感分析、命名实体识别等;实践篇主要从开发环境配置出发,以IMDb为例,阐述了影评语料的自动获取和基于机器学习的文本分析方法。从语料的获取到分析的整个流程中,作者希望能够在理论和实践上传达“语言+技术”的理念。本书主要适合想要了解语料自动获取和语料库技术的研究者或爱好者。
目录
绪论 网络语料自动获取的法律边界
理论篇
第1章 语料自动获取
1.1 网页的基本组成
1.1.1 网页的内容:HTML
1.1.2 网页的样式:CSS
1.1.3 网络的动效:JavaScript
1.2 HTTP基本原理
1.2.1 HTTP请求
1.2.2 HTTP响应
1.3 语料自动获取的基本方法
1.3.1 Urllib
1.3.2 Requests
1.4 网页解析库的使用
1.4.1 自动获取单页网页
1.4.2 实现翻页获取网页语料
第2章 语料自动存储与读取
2.1 TXT
2.1.1 with open()
2.1.2 open()
2.2 DOCX
2.2.1 存储
2.2.2 读取
2.3 JSON
2.3.1 存储
2.3.2 读取和索引
2.4 CSV
2.4.1 存储
2.4.2 读取
Z.b XLSX
2.5.1 Pandas
2.5.2 XLRD
2.5.3 XLWT
2.5.4 将自动获取的语料存为多个XLSX文档
2.6 文档的批量处理
2.6.1 批量合并多个TXT文档
2.6.2 批量修改TXT文档标题和添加内容
2.6.3 批量读取并合并多个XLSX文件
2.6.4 批量转换文件格式
2.6.5 批量统计多个文件中的字符数
2.6.6 批量提取多个文件中包含关键词的段落
第3章 语料清洗与预处理
3.1 文本清洗与降噪
3.1.1 去除HTML标签
3.1.2 去除标点符号和停用词
3.2 语料预处理
3.2.1 使用NLTK分句和分词
3.2.2 大小写转换与大小写词频统计
3.2.3 词性自动标注
3.2.4 词干提取和词形还原
第4章 语料检索与分析
4.1 基于关键词的检索
4.2 形符、类符与类符-形符比统计
4.3 特征词与词频统计
4.4 句法分析
4.5 词向量训练
4.5.1 连续词袋模型(CBOW)
4.5.2 跳跃元语法模型(skip—gram)
4.5.3 利用Gensim训练词向量
4.6 词汇相似度计算
4.7 情感分析
4.7.1 基于情感字典的情感分析
4.7.2 基于机器学习的情感分析
4.8 命名实体识别

实践篇
第5章 开发环境配置
5.1 Python的安装
5.1.1 安装包方式安装
5.1.2 使Anaconda套件安装
5.2 网络请求库的安装
5.2.1 安装Requests
5.2.2 Urllib
5.3 网页解析库的安装
5.3.1 安装BeautifulSoup
5.3.2 安装测试
5.4 其他库的安装
5.4.1 安装NLTK
5.4.2 安装python-docx
5.4.3 安装xlrd和xlwt
5.4.4 安装Pandas
5.4.5 安装Gensim
5.4.6 安装SpaCy
5.4.7 安装Jieba
5.4.8 安装测试
第6章 综合应用
6.1 IMDb影评语料的自动获取
6.1.1 查看ROBOTS协议
6.1.2 影评自动获取
6.2 文本处理和分析
附录
A.1 HTML标签
A.2 HTTP状态码列表
A.3 Python正则表达模式表
A.4 Python打开文件的方式
A.5 常见依存句法符号
A.6 常见词性赋码符号

蜀ICP备2024047804号

Copyright 版权所有 © jvwen.com 聚文网