您好,欢迎来到聚文网。 登录 免费注册
基于机器学习算法的分类知识发现及其在文本分析中的应用

基于机器学习算法的分类知识发现及其在文本分析中的应用

  • 字数: 205000
  • 装帧: 平装
  • 出版社: 清华大学出版社
  • 作者: 祁瑞华 著 著作
  • 出版日期: 2015-12-01
  • 商品条码: 9787302415763
  • 版次: 1
  • 开本: 16开
  • 页数: 178
  • 出版年份: 2015
定价:¥39 销售价:登录后查看价格  ¥{{selectedSku?.salePrice}} 
库存: {{selectedSku?.stock}} 库存充足
{{item.title}}:
{{its.name}}
精选
内容简介
随着数据获取技术的不断发展和电子商务的广泛应用,各种信息正以靠前的速度日益积累,高效率地分析信息海洋中的大量数据已经成为商业领域、工程领域和科学领域的共同需要。文本挖掘是数据挖掘领域的一个分支,与数据挖掘假设数据源是结构化数据集相比,文本挖掘的对象是非结构化或是半结构化的文本集合,需要从以文件形式存储的文本中提取和分析特征。不完整数据处理是现实世界中分类知识挖掘必须认真考虑和对待的重要问题。本书探讨了不完整数据分类算法的改进及其在文体风格识别中的应用,并基于缺失补偿策略优选熵模型对文本分类算法改进进行了探索性的研究。
本书既可以作为数据挖掘或文本分析领域的研究人员及相关专业的研究生开展文本分析与处理研究的教科书,也可以作为政府相关部门产品研发人员的参考书。
目录
第1章概述

1.1分类知识发现

1.1.1知识发现的概念和过程

1.1.2数据挖掘中的知识表示模式

1.1.3分类知识发现主要算法

1.1.4不完整数据分类知识发现

1.2文本挖掘

1.3本书内容组织


第2章不完整数据分类算法研究

2.1不完整数据分类知识发现

2.1.1不完整数据的类型

2.1.2不完整数据的处理

2.1.3不完整数据分类算法

2.1.4健壮贝叶斯分类

2.1.5朴素信念分类

2.2对现有方法的思考

2.2.1朴素信念分类算法的权重假设简单

2.2.2缺乏属性数据和类标记同时缺失情况下分类
知识发现的研究

2.2.3半监督算法的效率问题

2.3不完整数据加权朴素信念分类算法

2.3.1相关分析及相关系数

2.3.2加权保守推理规则

2.3.3加权朴素信念算法分类过程

2.4标准数据集UCI上的对比实验

2.4.1实验数据集及实验设计

2.4.2实验结果分析

2.5本章小结


第3章两阶段半监督加权朴素信念分类算法研究

3.1半监督分类知识发现研究现状

3.2问题分析

3.2.1未标记样本在分类学习中的作用

3.2.2现有半监督分类方法分析

3.3两阶段分类方法相关思路

3.3.1基于规则模型的两阶段分类

3.3.2两阶段半监督文本分类

3.4两阶段半监督加权朴素信念分类

3.4.1TSSWNC分类主要过程

3.4.2时间复杂度分析

3.5在标准数据集UCI上的实验

3.5.1分类对比实验

3.5.2实验结果及分析

3.5本章小结


第4章放松区间优势的朴素信念分类算法研究

4.1问题分析

4.2区间优势比较

4.3基于放松区间优势推理规则的不完整数据分类

4.3.1放松的区间优势

4.3.2放松的区间优势推理规则

4.3.3基于放松区间优势推理规则的分类过程


4.4在标准数据集UCI上的实验

4.4.1RCIRNCC分类对比实验

4.4.2实验结果分析

4.5本章小结


第5章典籍英译文体风格识别研究

5.1文体风格特征

5.2文体风格识别算法

5.3典籍英译文体风格向量空间模型

5.3.1典籍英译语料特点

5.3.2典籍英译多层面文体风格模型

5.4文体风格特征选择

5.4.1信息增益

5.4.2χ2统计量

5.4.3典籍英译文体风格识别特征选择

5.5特征数据项缺失文体识别实验

5.5.1加权朴素信念文体风格识别实验

5.5.2两阶段半监督文体风格识别实验

5.5.3放松区间优势朴素信念文体风格识别实验

5.5.4类别不平衡文体识别实验

5.6本章小结


第6章基于特征缺失补偿最大熵模型的文本分类

6.1最大熵模型

6.2基于Gaussian先验平滑特征补偿的最大熵模型

6.3混合特征选择算法

6.4基于特征缺失补偿最大熵模型的文本分类

6.5本章小结


第7章基于文本分析的网络舆情研究

7.1基于微博客的网络舆情指标体系

7.1.1网络舆情指标体系

7.1.2基于微博客的网络舆情指标体系

7.1.3微博客舆情预警对策

7.2基于关键字的微博客舆情传播规律

7.2.1网络舆情传播规律

7.2.2微博客网络舆情传播规律和对策

7.3基于关键字的网络舆情个案研究

7.3.1个案研究环境及实验数据

7.3.2大连地区抢盐潮个案分析

7.4微博客舆情的跨语言特征

7.4.1跨语言微博客特征表示

7.4.2跨语言微博客舆情预警研究框架

7.5网络文本情感倾向

7.5.1网络文本情感分析粒度

7.5.2网络文本情感分析基本问题

7.5.3网络文本情感分析前沿问题

7.5.4网络文本情感分析研究框架

7.6本章小结


参考文献
摘要
各行业数据集普遍存在数据不完整的情况。据统计,在机器学习和数据挖掘应用过程中,不完整数据的预处理花费大量的时间和精力。不完整数据处理是现实世界中分类知识挖掘必须认真考虑和对待的重要问题。有效地处理不完整数据有助于更加充分地利用已经搜集到的数据,从而提高机器学习和数据挖掘的效率,探索不完整数据的分类知识挖掘具有重要的现实意义。本书探讨了不完整数据分类算法的改进策略,第1章为不完整数据知识发现研究背景概述,第2章针对朴素信念分类算法忽略了属性变量的投票权重,提出了基于相关系数的加权保守推理规则; 第3章针对目前半监督分类算法中未考虑缺失属性数据项隐含信息和算法复杂度高的情况,提出两阶段半监督加权朴素信念分类模型; 第4章针对朴素信念分类算法明确分类样本比例低的情况,提出基于放松区间优势的不完整数据分类模型。并均在国际公开标准数据集上进行了对比实验,验证了提出模型在不完整数据上进行分类知识发现的性能。
典籍英译本的文体风格识别在对外作品推荐、匿名作者识别和促进中外文化交流方面具有重要的意义。本书第5章选择典籍英译作品作为研究对象,进行基于不完整数据分类算法的文体风格识别应用研究,进一步验证了本书提出的模型方法的有效性和性能。
本书第6章尝试在最大熵文本分类模型中使用高斯平滑进行特征补偿,并提出混合的特征选择方法对传统的特征选择方法进行改进。实验结果显示,基于特征缺失补偿最大熵模型的分类器的综合性能较好。
本书第7章基于微博客的网络舆情指标体系,分析了基于关键字的微博客舆情传播规律,进行了基于关键字的网络舆情个案研究; 同时探讨网络文本的多语言特性,分析了网络文本情感分析粒度、基本问题、前沿问题和研究框架。
本书可以作为数据挖掘或文本分析领域的研究人员及相关专业的研究生开展文本分析与处理研究的教科书,也可以作为政府相关部门产品研发人员的参考书。
本书能够尽快完成出版,首先要感谢我的同事霍跃红老师,本书的研究思想的起源来自与霍跃红老师的探讨合作,她无私提供了典籍英译文本语料; 感谢刘彩虹老师、郭旭老师等,以及参与数据收集和整理的同学们,本书的若干专题研究都与他们有深入的讨论。还要感谢清华大学出版社的员工,是他们的鼓励和细致工作使得本书得以顺利出版。最后感谢在本书中所引用参考文献的作者们和公开语料库的开发者们,本书的写作从他们的研究成果中获取了很多营养,正是他们勤奋和分享的科研精神引领和启发我完成本书的写作。
本书研究获得大连外国语大学学术专著出版资助,2014年大连外国语大学学科建设专项经费资助,特此表示感谢。
虽然我始终以认真严谨的态度对待本书的撰写工作,但很多研究尚属于探索阶段,书中难免有不足之处,恳请广大读者批评指正!

蜀ICP备2024047804号

Copyright 版权所有 © jvwen.com 聚文网