您好,欢迎来到聚文网。 登录 免费注册
文本数据挖掘(第2版)

文本数据挖掘(第2版)

  • 字数: 522
  • 出版社: 清华大学
  • 作者: 宗成庆//夏睿//张家俊|责编:黎强//孙亚楠
  • 商品条码: 9787302612957
  • 版次: 2
  • 开本: 16开
  • 页数: 334
  • 出版年份: 2022
  • 印次: 1
定价:¥99 销售价:登录后查看价格  ¥{{selectedSku?.salePrice}} 
库存: {{selectedSku?.stock}} 库存充足
{{item.title}}:
{{its.name}}
精选
内容简介
文本数据挖掘是通过机 器学习、自然语言处理和推 理等相关技术或方法,理解 、分析和挖掘文本的内容, 从而完成信息抽取、关系发 现、热点预测、文本分类和 自动摘要等具体任务的信息 处理技术。本书主要介绍与 文本数据挖掘有关的基本概 念、理论模型和实现算法, 包括数据预处理、文本表示 、文本分类、文本聚类、主 题模型、情感分析与观点挖 掘、话题检测与跟踪、信息 抽取以及文本自动摘要等, 最后通过具体实例展示相关 技术在实际应用中的使用方 法。 本书可作为高等院校计 算机、自动化、网络安全、 大数据分析等专业,以及利 用到文本信息处理的交叉学 科(如金融财经、社会人文 、生物医药等)的高年级本 科生或研究生从事相关研究 的入门参考书,也可供相关 技术研发人员阅读和参考。
作者简介
张家俊,中科院自动化所模式识别国家重点实验室副研究员,研究方向为自然语言处理、机器翻译、跨语言跨模态信息处理等。担任中国中文信息学会机器翻译专委会副主任等职务。发表高水平学术论文60余篇,曾4次获得最佳论文奖。担任多个国际一流学术会议的领域主席和高级程序委员会委员。获中国中文信息学会2014年“钱伟长中文信息处理科学技术奖”(一等奖)和2018年“汉王青年创新奖”。2015年入选中国科协首届“青年人才托举工程”计划。
目录
第1章 绪论 1.1 基本概念 1.2 文本挖掘任务 1.3 文本挖掘面临的困难 1.4 方法概述与本书的内容组织 1.5 进一步阅读 习题 第2章 数据预处理和标注 2.1 概述 2.2 数据获取 2.3 数据预处理 2.4 数据标注 2.5 基本工具 2.5.1 汉语自动分词与词性标注 2.5.2 句法分析 2.5.3 n元语法模型 2.6 进一步阅读 习题 第3章 文本表示 3.1 概述 3.2 向量空间模型 3.2.1 向量空间模型的基本概念 3.2.2 特征项的构造与权重 3.2.3 文本长度规范化 3.2.4 特征工程 3.2.5 其他文本表示方法 3.3 词的分布式表示 3.3.1 神经网络语言模型 3.3.2 C&W模型 3.3.3 CBOW与Skip-gram模型 3.3.4 噪声对比估计与负采样 3.3.5 字词混合的分布式表示方法 3.4 短语的分布式表示 3.4.1 基于词袋的分布式表示 3.4.2 基于自动编码器的分布式表示 3.5 句子的分布式表示 3.5.1 通用的句子表示 3.5.2 任务相关的句子表示 3.6 文档的分布式表示 3.6.1 通用的文档分布式表示 3.6.2 任务相关的文档分布式表示 3.7 进一步阅读 习题 第4章 预训练语言模型 4.1 概述 4.2 ELMo:源自语言模型的语境化分布式向量表示 4.2.1 基于双向LSTM的语言模型 4.2.2 适应下游任务的语境化ELMo词向量 4.3 GPT:生成式预训练模型 4.3.1 Transformer

蜀ICP备2024047804号

Copyright 版权所有 © jvwen.com 聚文网