您好,欢迎来到聚文网。 登录 免费注册
R自然语言处理导论

R自然语言处理导论

  • 字数: 512000
  • 装帧: 平装
  • 出版社: 东南大学出版社
  • 出版日期: 2023-11-01
  • 商品条码: 9787576609417
  • 版次: 1
  • 开本: 16开
  • 页数: 320
  • 出版年份: 2023
定价:¥78 销售价:登录后查看价格  ¥{{selectedSku?.salePrice}} 
库存: {{selectedSku?.stock}} 库存充足
{{item.title}}:
{{its.name}}
精选
内容简介
这部著作包括十一章内容,遵循由易到难、循序渐进的原则。第一章是R语言入门,第二章介绍字符串处理。第三章介绍常见的文本统计方法,包括统计文本词数、句子数和平均句长、绘制词频表以及词频分布图。第四章依据R数据包koRpus介绍与讨论文本词汇多样性测量方法,包括传统的类符-形符比和平均分段类符-形符比等。第五章同第四章一样利用R数据包koRpus,重点介绍文本可读性多种测量方法和一种听力文本难易度的测量方法,包括自动化可读性指数(ARI)和Flesch阅读难易度等。 第六章聚焦于n元组和关键词提取方法,内容包括文本词语关键性检验方法(如卡方检验和似然比检验)、比较学生故事复述文本与原文本中使用的关键词以及比较美国总统就职演说文本中的关键词等。第七章介绍两种特殊形式的n元组,即搭配和搭配构式。第八章介绍文档或文本相似度和距离测量,包括余弦相似度、Jaccard相似度、欧式距离、Minkowski距离和潜在语义分析等。 第九章着重介绍基于整洁文本的自然语言处理技术,是本著作内容最为丰富的一章,包括整洁数据的特征和整洁数据包tidyr的使用等。第十章介绍中文自然语言处理技术,包括调用jiebaR包时如何通过自定义词典进行分词、调用jiebaR包开展基础统计分析,计算文本长度、句子数和平均句长以及绘制高频词分布条形图等。第十一章是本书的最后一章,介绍如何对文本词汇开展词类标注和句法成分依存分析,包括数据包udpipe的安装与初试、词语共现和快速自动关键词提取等。
目录
第一章 R语言基础
1.1 R简史
1.2 R软件和数据包安装
1.3 基本R对象
1.4 R循环
第二章 字符串处理
2.1 文档读取
2.2 字符串分割
2.3 正则表达式
2.4 R基础包中的正则表达式函数
2.5 字符串操作数据包stringr
2.6 语境中的关键词检索
第三章 文本基础统计
3.1 数据包koRpus的安装与调试
3.2 描述性统计
3.3 词汇密度
3.4 词频表
3.5 词频分布图
第四章 文本词汇多样性测量
4.1 传统的类符-形符比
4.2 平均分段类符-形符比
4.3 移动平均类符-形符比
……

蜀ICP备2024047804号

Copyright 版权所有 © jvwen.com 聚文网