您好,欢迎来到聚文网。
登录
免费注册
网站首页
|
联系客服
|
搜索
热搜:
巴比伦首富
|
巴比伦
|
毛选
|
购物车
0
我的订单
商品分类
首页
幼儿
文学
社科
教辅
生活
销量榜
文本数据挖掘/宗成庆等
装帧: 简装
出版社: 清华大学出版社
作者: 宗成庆、夏睿、张家俊
出版日期: 2019-05-01
商品条码: 9787302519904
版次: 1
开本: 其他
页数: 0
出版年份: 2019
定价:
¥75
销售价:
登录后查看价格
¥{{selectedSku?.salePrice}}
库存:
{{selectedSku?.stock}}
库存充足
{{item.title}}:
{{its.name}}
加入购物车
立即购买
收藏
上架到店铺
×
Close
上架到店铺
{{shop.name}}
点此去绑定店铺
精选
¥5.83
世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版
¥5.39
正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册
¥8.58
简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版
¥5.83
世界文学名著全49册中小学生青少年课外书籍文学小说批发正版
¥4.95
全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷
¥8.69
父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册
¥24.2
好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册
¥7.15
幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书
¥11.55
用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书
¥19.8
少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版
¥64
科学真好玩
¥12.7
一年级下4册·读读童谣和儿歌
¥38.4
原生态新生代(传统木版年画的当代传承国际研讨会论文集)
¥11.14
法国经典中篇小说
¥11.32
上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)
¥22.05
猫的摇篮(精)
¥30.72
幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书
¥24.94
旧时风物(精)
¥12.04
三希堂三帖/墨林珍赏
¥6.88
寒山子庞居士诗帖/墨林珍赏
¥6.88
苕溪帖/墨林珍赏
¥6.88
楷书王维诗卷/墨林珍赏
¥9.46
兰亭序/墨林珍赏
¥7.74
祭侄文稿/墨林珍赏
¥7.74
蜀素帖/墨林珍赏
¥12.04
真草千字文/墨林珍赏
¥114.4
进宴仪轨(精)/中国古代舞乐域外图书
¥24.94
舞蹈音乐的基础理论与应用
编辑推荐
"随着计算机网络和移动通信技术的快速发展和普及,面向网络或移动终端用户的文本大数据挖掘技术越来越多地受到各个领域的高度关注,具有极其广阔的应用,同时这项研究涉及机器学习、自然语言处理和人工智能等多个领域和学科,开展这项研究对于推动相关学科的发展具有重要的理论意义。 本书阐述文本数据挖掘的理论模型、实现算法和相关应用,通过实例从原理上对相关技术的理论方法和实现算法进行阐述,言简意赅,深入浅出,使读者能够在充分理解基本原理的基础上掌握应用系统的实现方法。 本书列入“中国科学院大学研究生教学辅导书系列”,可作为大学高年级本科生或研究生从事相关研究的入门文献,也可作为从事相关技术研发的开发人员的参考资料。 "
内容简介
本书阐述文本数据挖掘的理论模型、实现算法和相关应用,主要内容包括:信息抽取和知识库构建、文本聚类、情感文本分析、热点发现、生物医学文本挖掘和多文档自动摘要等。写作风格力求言简意赅,深入浅出,通过实例说明实现相关任务的理论方法和技术思路,而不过多地涉及实现细节。本书可作为大学高年级本科生或研究生从事相关研究的入门文献,也可作为从事相关技术研发的开发人员的参考资料。
作者简介
"宗成庆 中国科学院自动化研究所研究员、博士生导师,中国科学院大学岗位教授。主要从事自然语言处理、机器翻译、人机对话系统和文本数据挖掘等相关研究,主持国家项目10余项,发表论文200余篇,出版专著《统计自然语言处理》一部和译著两部。目前担任国际计算语言学委员会(ICCL)委员、亚洲自然语言处理学会(AFNLP)主席和中国中文信息学会副理事长等职务,是学术期刊ACM TALLIP副主编、《自动化学报》副主编和IEEE Intelligent Systems等期刊的编委,曾任国际很好学术会议ACL-IJCNLP2015程序委员会主席,IJCAI2017、IJCAI-ECAI2018和AAAI2019领域主席。获国家科技进步奖二等奖、“钱伟长中文信息处理科学技术奖”一等奖和中国科学院教育教学成果奖二等奖,获北京市优秀教师、中国科学院优秀导师等荣誉称号。享受国务院政府特殊津贴。 夏睿 南京理工大学计算机学院教授、博士生导师。主要从事自然语言处理、文本数据挖掘、情感分析与观点挖掘等领域的研究。在国际知名学术期刊和会议上发表论文40余篇,主持国家省部级科研项目近10项。担任多个国际很好会议的领域主席、高级程序委员会委员和程序委员会委员。2014年入选南京理工大学紫金之星人才计划,2016年获得首届江苏省优青项目资助,2017年入选南京理工大学青年拔尖人才计划并破格晋升为教授。 张家俊中科院自动化所模式识别国家重点实验室副研究员,研究方向为自然语言处理、机器翻译、跨语言跨模态信息处理等。目前担任中国中文信息学会机器翻译专委会副主任等职务。发表高水平学术论文60余篇,曾四次获得很好论文奖。担任多个国际很好学术会议的领域主席和高级程序委员会委员。获中国中文信息学会2014年“钱伟长中文信息处理科学技术奖”一等奖和2018年“汉王青年创新奖”。2015年入选中国科协首届“青年人才托举工程”计划。"
目录
第 1章绪论 .1 1.1基本概念 1 1.2文本挖掘任务 .2 1.3文本挖掘面临的困难 .5 1.4方法概述与本书的内容组织 .7 1.5进一步阅读 .9 第 2章数据预处理和标注 . 11 2.1数据获取 11 2.2数据预处理 . 15 2.3数据标注 17 2.4基本工具 19 2.4.1汉语自动分词与词性标注 19 2.4.2句法分析 . 20 2.4.3 n元语法模型 . 21 2.5进一步阅读 . 22 第 3章文本表示 . 23 3.1向量空间模型 . 23 3.1.1向量空间模型的基本概念 23 3.1.2特征项的构造与权重 . 24 3.1.3文本长度规范化 . 25 3.1.4特征工程 . 26 3.1.5其他文本表示方法 27 3.2词的分布式表示 29 3.2.1神经网络语言模型 29 3.2.2 C&W模型 . 32 3.2.3 CBOW与 Skip-gram模型 34 3.2.4噪声对比估计与负采样 . 35 3.2.5字词混合的分布式表示方法 . 37 3.3短语的分布式表示 . 38 3.3.1基于词袋的分布式表示 . 39 3.3.2基于自动编码器的分布式表示 . 39 3.4句子的分布式表示 . 42 3.4.1通用的句子表示 . 42 3.4.2任务相关的句子表示 . 45 3.5文档的分布式表示 . 48 3.5.1通用的文档分布式表示 . 48 3.5.2任务相关的文档分布式表示 . 49 3.6进一步阅读 . 52 第 4章文本分类 . 53 4.1概述 . 53 4.2传统文本表示 . 54 4.3特征选择 55 4.3.1互信息法 . 55 4.3.2信息增益法 58 4.3.3卡方统计量法 . 59 4.3.4其他方法 . 60 4.4传统分类算法 . 61 4.4.1朴素贝叶斯模型 . 61 4.4.2 Logistic回归、 Softmax回归与优选熵模型 . 63 4.4.3支持向量机 65 4.4.4集成学习 . 67 4.5深度神经网络方法 . 68 4.5.1多层前馈神经网络 68 4.5.2卷积神经网络 . 69 4.5.3循环神经网络 . 71 4.6文本分类性能评估 . 78 4.7进一步阅读 . 81 第 5章文本聚类 . 83 5.1概述 . 83 5.2文本相似性度量 83 5.2.1样本间的相似性 . 83 5.2.2簇间的相似性 . 86 目录 IX 5.2.3样本与簇之间的相似性 . 87 5.3文本聚类算法 . 87 5.3.1 K-均值聚类 . 87 5.3.2单遍聚类 . 91 5.3.3层次聚类 . 92 5.3.4密度聚类 . 95 5.4性能评估 97 5.4.1外部标准 . 97 5.4.2内部标准 . 99 5.5进一步阅读 . 99 第 6章主题模型 . 101 6.1概述 . 101 6.2潜在语义分析 . 102 6.2.1奇异值分解 102 6.2.2词项 -文档矩阵的奇异值分解 103 6.2.3词项和文档的概念表示及相似度计算 . 104 6.3概率潜在语义分析 . 106 6.3.1模型假设 . 106 6.3.2参数学习 . 107 6.4潜在狄利克雷分布 . 108 6.4.1模型假设 . 108 6.4.2词项和主题序列的联合概率 . 110 6.4.3模型推断 . 112 6.4.4新文档的推断 . 114 6.4.5 PLSA与 LDA的联系与区别 . 115 6.5进一步阅读 . 115 第 7章情感分析与观点挖掘 117 7.1概述 . 117 7.2情感分析任务类型 . 118 7.2.1按目标形式划分 . 118 7.2.2按分析粒度划分 . 119 7.3文档或句子级情感分析方法 . 121 7.3.1基于规则的无监督情感分类 . 122 7.3.2基于传统机器学习的监督情感分类 . 123 7.3.3深度神经网络方法 126 文本数据挖掘 7.4词语级情感分析与情感词典构建 . 131 7.4.1基于语义知识库的方法 . 131 7.4.2基于语料库的方法 131 7.4.3情感词典性能评估 134 7.5属性级情感分析 134 7.5.1属性抽取 . 135 7.5.2属性情感分类 . 138 7.5.3主题与情感的生成式建模 141 7.6情感分析中的特殊问题 143 7.6.1情感极性转移问题 143 7.6.2领域适应问题 . 145 7.7进一步阅读 . 147 第 8章话题检测与跟踪 . 149 8.1概述 . 149 8.2术语与任务 . 151 8.2.1术语 151 8.2.2任务 152 8.3报道或话题的表示与相似性计算 . 154 8.4话题检测 156 8.4.1话题在线检测 . 157 8.4.2话题回溯检测 . 158 8.5话题跟踪 159 8.6评估方法 160 8.7社交媒体话题检测与跟踪 . 161 8.7.1社交媒体话题检测 162 8.7.2社交媒体话题跟踪 163 8.8突发话题检测 . 163 8.8.1突发状态识别 . 164 8.8.2以文档为中心的方法:先检测话题后评估突发性 . 167 8.8.3以特征为中心的方法:先识别突发特征后生成突发话题 . 168 8.9进一步阅读 . 169 第 9章信息抽取 . 171 9.1概述 . 171 9.2命名实体识别 . 173 9.2.1基于规则的命名实体识别方法 . 174 目录 XI 9.2.2有监督的命名实体识别方法 . 175 9.2.3半监督的命名实体识别方法 . 181 9.2.4命名实体识别方法评价 . 183 9.3共指消解 184 9.3.1基于规则的共指消解方法 185 9.3.2数据驱动的共指消解方法 187 9.3.3共指消解评价 . 190 9.4实体消歧 193 9.4.1基于聚类的实体消歧方法 193 9.4.2基于链接的实体消歧 . 197 9.4.3实体消歧任务的评价方法 203 9.5关系抽取 204 9.5.1基于离散特征的关系分类方法 . 206 9.5.2基于分布式特征的关系分类方法 212 9.5.3基于远程监督的关系分类方法 . 214 9.5.4关系分类性能评价 215 9.6事件抽取 215 9.6.1事件描述模板 . 215 9.6.2事件抽取方法 . 217 9.6.3事件抽取评价 . 224 9.7进一步阅读 . 224 第 10章文本自动摘要 227 10.1概述 . 227 10.2抽取式自动摘要 228 10.2.1句子重要性评估 229 10.2.2基于约束的摘要生成方法 . 237 10.3压缩式自动摘要方法 238 10.3.1句子压缩方法 238 10.3.2基于句子压缩的自动摘要方法 242 10.4生成式自动摘要 244 10.4.1基于信息融合的生成式摘要方法 . 244 10.4.2基于编码 -解码的生成式摘要方法 249 10.5基于查询的自动摘要 251 10.5.1基于语言模型的相关性计算方法 . 251 10.5.2基于关键词语重合度的相关性计算方法 . 252 10.5.3基于图模型的相关性计算方法 252 10.6跨语言和多语言自动摘要方法 253 10.6.1跨语言自动摘要 253 10.6.2多语言自动摘要 256 10.7摘要质量评估方法和相关评测 258 10.7.1摘要质量评估方法 . 258 10.7.2相关评测活动 262 10.8进一步阅读 . 263 参考文献 . 265 名词术语索引 . 285
×
Close
添加到书单
加载中...
点此新建书单
×
Close
新建书单
标题:
简介:
蜀ICP备2024047804号
Copyright 版权所有 © jvwen.com 聚文网