文本数据挖掘(第2版)--聚文网

精选

¥5.83

世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版

¥5.39

正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册

¥8.58

简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版

¥5.83

世界文学名著全49册中小学生青少年课外书籍文学小说批发正版

¥4.95

全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷

¥8.69

父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册

¥24.2

好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册

¥7.15

幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书

¥11.55

用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书

¥19.8

少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版

¥64

科学真好玩

¥12.7

一年级下4册·读读童谣和儿歌

¥38.4

原生态新生代(传统木版年画的当代传承国际研讨会论文集)

¥11.14

法国经典中篇小说

¥11.32

上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)

¥22.05

猫的摇篮(精)

¥30.72

幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书

旧时风物(精)

三希堂三帖/墨林珍赏

寒山子庞居士诗帖/墨林珍赏

苕溪帖/墨林珍赏

楷书王维诗卷/墨林珍赏

兰亭序/墨林珍赏

祭侄文稿/墨林珍赏

蜀素帖/墨林珍赏

真草千字文/墨林珍赏

进宴仪轨(精)/中国古代舞乐域外图书

舞蹈音乐的基础理论与应用

内容简介

文本数据挖掘是通过机器学习、自然语言处理和推理等相关技术或方法，理解、分析和挖掘文本的内容，从而完成信息抽取、关系发现、热点预测、文本分类和自动摘要等具体任务的信息处理技术。本书主要介绍与文本数据挖掘有关的基本概念、理论模型和实现算法，包括数据预处理、文本表示、文本分类、文本聚类、主题模型、情感分析与观点挖掘、话题检测与跟踪、信息抽取以及文本自动摘要等，最后通过具体实例展示相关技术在实际应用中的使用方法。本书可作为高等院校计算机、自动化、网络安全、大数据分析等专业，以及利用到文本信息处理的交叉学科（如金融财经、社会人文、生物医药等）的高年级本科生或研究生从事相关研究的入门参考书，也可供相关技术研发人员阅读和参考。

作者简介

张家俊，中科院自动化所模式识别国家重点实验室副研究员，研究方向为自然语言处理、机器翻译、跨语言跨模态信息处理等。担任中国中文信息学会机器翻译专委会副主任等职务。发表高水平学术论文60余篇，曾4次获得最佳论文奖。担任多个国际一流学术会议的领域主席和高级程序委员会委员。获中国中文信息学会2014年“钱伟长中文信息处理科学技术奖”（一等奖）和2018年“汉王青年创新奖”。2015年入选中国科协首届“青年人才托举工程”计划。

第1章绪论 1.1 基本概念 1.2 文本挖掘任务 1.3 文本挖掘面临的困难 1.4 方法概述与本书的内容组织 1.5 进一步阅读习题第2章数据预处理和标注 2.1 概述 2.2 数据获取 2.3 数据预处理 2.4 数据标注 2.5 基本工具 2.5.1 汉语自动分词与词性标注 2.5.2 句法分析 2.5.3 n元语法模型 2.6 进一步阅读习题第3章文本表示 3.1 概述 3.2 向量空间模型 3.2.1 向量空间模型的基本概念 3.2.2 特征项的构造与权重 3.2.3 文本长度规范化 3.2.4 特征工程 3.2.5 其他文本表示方法 3.3 词的分布式表示 3.3.1 神经网络语言模型 3.3.2 C&W模型 3.3.3 CBOW与Skip-gram模型 3.3.4 噪声对比估计与负采样 3.3.5 字词混合的分布式表示方法 3.4 短语的分布式表示 3.4.1 基于词袋的分布式表示 3.4.2 基于自动编码器的分布式表示 3.5 句子的分布式表示 3.5.1 通用的句子表示 3.5.2 任务相关的句子表示 3.6 文档的分布式表示 3.6.1 通用的文档分布式表示 3.6.2 任务相关的文档分布式表示 3.7 进一步阅读习题第4章预训练语言模型 4.1 概述 4.2 ELMo：源自语言模型的语境化分布式向量表示 4.2.1 基于双向LSTM的语言模型 4.2.2 适应下游任务的语境化ELMo词向量 4.3 GPT：生成式预训练模型 4.3.1 Transformer

文本数据挖掘(第2版)

库存： {{selectedSku?.stock}} 库存充足

上架到店铺