机器学习入门到实战——MATLAB实践应用--聚文网

精选

¥5.83

世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版

¥5.39

正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册

¥8.58

简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版

¥5.83

世界文学名著全49册中小学生青少年课外书籍文学小说批发正版

¥4.95

全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷

¥8.69

父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册

¥24.2

好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册

¥7.15

幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书

¥11.55

用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书

¥19.8

少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版

¥64

科学真好玩

¥12.7

一年级下4册·读读童谣和儿歌

¥38.4

原生态新生代(传统木版年画的当代传承国际研讨会论文集)

¥11.14

法国经典中篇小说

¥11.32

上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)

¥22.05

猫的摇篮(精)

¥30.72

幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书

旧时风物(精)

三希堂三帖/墨林珍赏

寒山子庞居士诗帖/墨林珍赏

苕溪帖/墨林珍赏

楷书王维诗卷/墨林珍赏

兰亭序/墨林珍赏

祭侄文稿/墨林珍赏

蜀素帖/墨林珍赏

真草千字文/墨林珍赏

进宴仪轨(精)/中国古代舞乐域外图书

舞蹈音乐的基础理论与应用

编辑推荐

《机器学习入门与实战——MATLAB实践应用》的编写是作者在多年机器学习及工作经验的基础上，对大量的网络资源、论文和相关书籍进行总结、整理、分析而来。全书共分为三部分，分别为机器学习概念篇、MATLAB机器学习基础篇、机器学习算法与MATLAB实践篇。

内容简介

本书主要介绍经典的机器学习算法的原理及改进，以及MATLAB的实例实现。本书内容分为三部分。第一部分(第1章)是机器学习概念篇，介绍机器学习的相关概念，并且对机器学习的各类算法进行分类，以便读者对机器学习的知识框架有一个整体的了解，从而在后续的学习中更容易接受机器学习涉及的各类算法。第二部分(第2章、第3章)是MATLAB机器学习基础篇，介绍MATLAB的基本使用方法，以及MATLAB集成的机器学习工具箱。MATLAB易上手的特点让使用者将更多的精力专注于算法开发与使用，而不是搭建算法实现开发平台。第三部分(第4章~第19章)是机器学习算法与MATLAB实践篇，对监督学习、无/非监督学习、强化学习三大类常用算法进行逐个讲解，包括机器学习算法原理、算法优缺点、算法的实例解释以及MATLAB的实践应用。本书适合以下读者：对人工智能、机器学习感兴趣的读者；希望用机器学习完成设计的计算机或电子信息专业学生；准备开设机器学习、深度学习实践课的授课老师；学习过C语言，且希望进一步提升编程水平的开发者；刚从事机器学习、语音、机器视觉、智能机器人研发的算法工程师。

第一部分机器学习概念篇 ●第1章机器学习基础 1.1机器学习概述 1.1.1机器学习的概念 1.1.2机器学习的发展史 1.1.3机器学习的用途 1.1.4机器学习、数据挖掘及人工智能的关系 1.2机器学习基本术语 1.3机器学习任务及算法分类 1.4如何学习和运用机器学习 1.4.1软件平台的选择 1.4.2机器学习应用实现流程 1.5数据预处理 1.5.1数据初步选取 1.5.2数据清理 1.5.3数据集成 1.5.4数据变换 1.5.5数据归约参考文献第二部分MATLAB机器学习基础篇 ●第2章MATLAB基础入门 2.1MATLAB界面介绍 2.2矩阵赋值与运算 2.3m文件及函数实现与调用 2.4基本流程控制语句 2.5基本绘图方法 2.5.1二维绘图函数的基本用法 2.5.2三维绘图函数的基本用法 2.5.3颜色与形状参数列表 2.5.4图形窗口分割与坐标轴 2.6数据文件导入与导出参考文献 ●第3章MATLAB机器学习工具箱 3.1工具箱简介 3.2分类学习器基本操作流程 3.3分类学习器算法优化与选择 3.3.1特征选择 3.3.2选择分类器算法 3.4工具箱分类学习实例参考文献第三部分机器学习算法与MATLAB实践篇 ●第4章k近邻算法 4.1k近邻算法原理 4.1.1k近邻算法实例解释 4.1.2k近邻算法的特点 4.2基于k近邻算法的算法改进 4.2.1快速KNN算法 4.2.2kd树KNN算法 4.3k近邻算法的MATLAB实践参考文献 ●第5章决策树 5.1决策树算法原理 5.1.1决策树算法基本原理 5.1.2决策树算法的特点 5.1.3决策树剪枝 5.1.4分类决策树与回归决策树 5.2基于决策树算法的算法改进 5.2.1ID3决策树 5.2.2C4.5决策树 5.2.3分类回归树 5.2.4随机森林 5.3决策树算法MATLAB实践参考文献 ●第6章支持向量机 6.1支持向量机算法原理 6.1.1支持向量机概述 6.1.2支持向量机算法及推导 6.1.3支持向量机核函数 6.2改进的支持向量机算法 6.3支持向量机算法的MATLAB实践参考文献 ●第7章朴素贝叶斯 7.1贝叶斯定理 7.2朴素贝叶斯分类 7.3朴素贝叶斯实例分析 7.4朴素贝叶斯分类算法的改进 7.4.1半朴素贝叶斯分类模型 7.4.2树增强朴素贝叶斯分类模型 7.4.3贝叶斯网络 7.4.4朴素贝叶斯树 7.4.5属性加权朴素贝叶斯分类算法 7.5朴素贝叶斯算法MATLAB实践参考文献 ●第8章线性回归 8.1线性回归原理 8.1.1简单线性回归 8.1.2线性回归实例 8.2多元线性回归 8.3线性回归算法的MATLAB实践参考文献 ●第9章逻辑回归 9.1逻辑回归原理 9.1.1Sigmoid函数 9.1.2梯度下降法 9.2逻辑回归理论推导 9.2.1逻辑回归理论公式推导 9.2.2向量化 9.2.3逻辑回归算法的实现步骤 9.2.4逻辑回归的优缺点 9.3逻辑回归算法的改进 9.3.1逻辑回归的正则化 9.3.2主成分改进的逻辑回归方法 9.4逻辑回归的MATLAB实践参考文献 ●第10章神经网络 10.1神经网络算法原理 10.1.1神经网络工作原理 10.1.2神经网络的特点 10.1.3人工神经元模型 10.2前向神经网络 10.2.1感知器 10.2.2BP算法 10.3基于神经网络的算法拓展 10.3.1深度学习 10.3.2极限学习机 10.4神经网络的MATLAB实践参考文献 ●第11章AdaBoost算法 11.1集成学习方法简介 11.1.1集成学习方法分类 11.1.2集成学习Boosting算法 11.2AdaBoost算法原理 11.2.1AdaBoost算法思想 11.2.2AdaBoost算法理论推导 11.2.3AdaBoost算法的实现步骤 11.2.4AdaBoost算法的特点 11.2.5通过实例理解AdaBoost算法 11.3AdaBoost算法的改进 11.3.1RealAdaBoost算法 11.3.2GentleAdaBoost算法 11.3.3LogitBoost算法 11.4AdaBoost算法的MATLAB实践参考文献 ●第12章k均值算法 12.1k均值算法原理 12.1.1k均值算法基本原理 12.1.2k均值算法的实现步骤 12.1.3k均值算法实例 12.1.4k均值算法的特点 12.2基于kmeans算法的算法改进 12.2.1改善k值选取方式的kmeans改进算法 12.2.2改进初始聚类中心选择方式的kmeans改进算法 12.3kmeans算法的MATLAB实践参考文献 ●第13章期望优选化算法 13.1EM算法 13.1.1EM算法思想 13.1.2似然函数和极大似然估计 13.1.3Jensen不等式 13.1.4EM算法理论和公式推导 13.1.5EM算法的收敛速度 13.1.6EM算法的特点 13.2EM算法的改进 13.2.1Monte Carlo EM算法 13.2.2ECM算法 13.2.3ECME算法 13.3EM算法的MATLAB实践参考文献 ●第14章k中心点算法 14.1经典k中心点算法——PAM算法 14.1.1PAM算法原理 14.1.2PAM算法实例 14.1.3PAM算法的特点 14.2k中心点算法的改进 14.3k中心点算法的MATLAB实践参考文献 ●第15章关联规则挖掘的Apriori算法 15.1关联规则概述 15.1.1关联规则的基本概念 15.1.2关联规则的分类 15.2Apriori算法原理 15.3Apriori算法的改进 15.3.1基于分片的并行方法 15.3.2基于hash的方法 15.3.3基于采样的方法 15.3.4减少交易个数的方法 15.4Apriori算法的MATLAB实践参考文献 ●第16章高斯混合模型 16.1高斯混合模型原理 16.1.1单高斯模型 16.1.2高斯混合模型 16.1.3模型的建立 16.1.4模型参数的求解 16.2GMM算法的MATLAB实践 16.2.1生成一个高斯混合模型 16.2.2拟合GMM 16.2.3GMM聚类实例 16.3GMM的改进及MATLAB实践 16.3.1GMM的正则化 16.3.2GMM中k的选择问题 16.3.3GMM拟合的初始值选择问题参考文献 ●第17章DBSCAN算法 17.1DBSCAN算法原理 17.1.1DBSCAN算法的基本概念 17.1.2DBSCAN算法原理 17.1.3DBSCAN算法的实现步骤 17.1.4DBSCAN算法的优缺点 17.2DBSCAN算法的改进 17.2.1DPDGA算法 17.2.2并行DBSCAN算法 17.3DBSCAN算法的MATLAB实践参考文献 ●第18章策略迭代和值迭代 18.1基本概念 18.1.1强化学习的基本模型 18.1.2马尔可夫决策过程 18.1.3策略 18.1.4值函数 18.1.5贝尔曼方程 18.2策略迭代算法原理 18.3值迭代算法原理 18.4策略迭代和值迭代算法的MATLAB实践参考文献 ●第19章SARSA算法和Q学习算法 19.1SARSA算法原理 19.2SARSA算法的MATLAB实践 19.3Q学习算法原理 19.4Q学习算法的MATLAB实践参考文献

摘要

第5章决策树 5.1决策树算法原理 5.1.1决策树算法基本原理决策树(Decision Tree)是一种特别简单的机器学习分类算法。决策树想法来源于人类的决策过程，是在已知各种情况发生概率的基础上，通过构成决策树来评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干，故称决策树。在机器学习中，决策树是一个预测模型，其代表的是对象属性与对象值之间的一种映射关系。决策树可看作一个树状预测模型，它是由结点和有向分支组成的层次结构。树中包含3种结点：根结点、内部结点、叶子结点。决策树只有一个根结点，是全体训练数据的集合。树中每个内部结点都是一个分裂问题：指定了对实例的某个属性的测试，它将到达该结点的样本按照某个特定的属性进行分割，并且该结点的每一个后继分支对应于该属性的一个可能值。每个叶子结点是带有分类标签的数据集合，即为样本所属的分类［1,2,3］。为了便于读者理解，用实例的方法解释各概念及决策树算法流程。假设一个应用为推断某个孩子是否出门玩耍，其相应的样本属性包括是否晴天、湿度大小、是否刮风，通过前期统计，带标签的数据如表5.1所示，序号1~6的数据为样本数据，序号为7的数据为待分类数据，即判别在该属性数据情况下是否出门。表5.1孩子出门情况统计表序号是否晴天湿度大小是否刮风是否出门(标签) 1是大否不出门 2是小否出门 3是小是不出门 4否小是不出门 5否大否出门 6否大是不出门 7是小否？通过表5.1建立决策树模型，如图5.1所示，从图中可看出，首先对数据整体样本(即根结点处)按照某一属性进行决策分支，形成中间结点，之后，递归分支，直到样本划分到一类中，即形成叶子结点。对于表5.1中的序号为7的待分类样本，将其带入决策树中，首先按是否晴天进行分支，其属性值为“是”时，之后，依据其湿度值为“小”，最后，判断是否刮风为“否”，可判断该数据划分到“出门”这一类中。图5.1孩子出门决策树决策树是一种十分常用的分类方法，其通过样本数据学习得到一个树形分类器，对于新出现的待分类样本能够给出正确的分类。对于创建决策树的过程，其步骤如下。 (1) 检测数据集中的每个样本是否属于同一分类。 (2) 如果是，则形成叶子结点，跳转到步骤(5)。如果否，则寻找划分数据集的优选特征(5.2节将介绍方法)。 (3) 依据优选的特征，划分数据集，创建中间结点。 (4) 对每一个划分的子集循环步骤(1)、(2)、(3)。 (5) 直到所有的最小子集都属于同一类时，即形成叶子结点，则决策树建立完成。 5.1.2决策树算法的特点决策树算法的优点如下。 (1) 决策树易于理解和实现，用户在学习过程中不需要了解过多的背景知识，其能够直接体现数据的特点，只要通过适当的解释，用户能够理解决策树所表达的意义。 (2) 速度快，计算量相对较小，且容易转化成分类规则。只要沿着根结点向下一直走到叶子结点，沿途分裂条件是专享且确定的。决策树算法的缺点则主要是在处理大样本集时，易出现过拟合现象，降低分类的准确性。 5.1.3决策树剪枝决策树是一种分类器，通过ID3、C4.5和CART等方法(5.2节介绍)可以通过训练数据构建一个决策树。但是，算法生成的决策树非常详细并且庞大，每个属性都被详细地加以考虑，决策树的树叶结点所覆盖的训练样本都是绝对分类的。因此用决策树来对训练样本进行分类时，会发现对于训练样本而言，这个树表现完好，误差率极低，且能够正确地对训练样本集中的样本进行分类。但是，训练样本中的错误数据也会被决策树学习，成为决策树的部分，并且由于过拟合，对于测试数据的表现并不佳，或者极差。为解决上述出现的过拟合问题，需要对决策树进行剪枝处理。根据剪枝所出现的时间点不同，分为预剪枝和后剪枝。预剪枝是在决策树的生成过程中进行的；后剪枝是在决策树生成之后进行的。后者应用得较广泛，而前剪枝具有概率性使树生长过早停止的缺点，因此应用较少。 1. 预剪枝(PrePruning) 在构造决策树的同时进行剪枝。所有决策树的构建方法都是在无法进一步分枝的情况下才会停止创建分支的过程，为了避免过拟合，可以设定一个阈值，当信息熵信息熵，信息论之父克劳德·艾尔伍德·香农用数学语言阐明概率与信息冗余度的关系,5.2节将详细介绍。减小到小于这个阈值时，即使还可以继续降低熵，也停止继续创建分支，而将其作为叶子结点。 2. 后剪枝(PostPruning) 决策树构造完成后进行剪枝。剪枝的过程是对拥有同样父结点的一组结点进行检查，依据熵的增加量是否小于某一阈值，决定叶子结点是否合并。后剪枝是目前最普遍的做法。后剪枝的剪枝过程是删除一些子树，然后用其叶子结点代替，这个叶子结点所标识的类别通过大多数原则确定。所谓大多数原则，是指剪枝过程中，将一些子树删除而用叶结点代替，这个叶结点所标识的类别用这棵子树中大多数训练样本所属的类别(Majority Class)来标识。比较常见的后剪枝方法有代价复杂度剪枝CCP(Cost Complexity Pruning)、错误率降低剪枝REP(Reduced Error Pruning)、悲观剪枝PEP(Pessimistic Error Pruning)、最小误差剪枝MEP(Minimum Error Pruning)等。下面介绍前两种剪枝方法，为读者提供一定的剪枝思路。 (1) 代价复杂度剪枝CCP。CCP方法的基本思想是从决策树T0通过剪枝的方式，不断地修剪决策树，其形成一个子树的序列{T0,T1,…,Tn}。其中Ti+1是Ti通过修剪关于训练数据集误差增加率最小的分支得来。对于决策树T，假设其误差为R(T)，叶子结点数为L(T)，在结点t处修剪后，误差为R(Tt)，叶子结点数为L(Tt)，修剪前后误差增加RTt-R(T)，误差增加率为： α=RTt-RTLT-LTt(5.1) 决策树经过不断修剪，直到误差增加率大于某一设定阈值，则修剪结束。下面利用具体实例进行讲解，假设依靠样本数据形成决策树如图5.2所示。其中A、B为样本类，x、y、z为属性，用ti表示结点位置。图5.2决策树表5.2表示关于图5.2决策树的剪枝数据计算过程及结果。表5.2决策树剪枝α计算值 T0αt4=0.0125αt5=0.050αt2=0.0292αt3=0.0375 T1αt5=0.050αt2=0.0375αt3=0.0375 T2αt3=0.0375 从表5.2中可看出，在原始决策树T0行，4个非叶子结点t4中的α值最小，因此裁剪t4结点的分支，得到T1；在T1行中，虽然t2和t3的α值相同，但是裁剪t2能够得到更小的决策树，因此，T2是T1裁剪t2分支得到的。当然，假设误差增加率的阈值设定为0.03，裁剪结点t4后，形成决策树T1后，裁剪结束。 (2) 错误率降低剪枝REP。该剪枝方法是根据错误率进行剪枝，如果决策树修剪前后子树的错误率没有下降，就可以认为该子树是可以修剪的。REP剪枝需要用新的数据集进行效果验证。原因是如果用旧的数据集，不可能出现修剪后决策树的错误率比修剪前错误率要高的情况。由于使用新的数据集没有参与决策树的构建，能够降低训练数据的影响，降低过拟合的程度，提高预测的准确率。 5.1.4分类决策树与回归决策树通过上述决策树的讲解，对于利用决策树进行分类问题的解决比较容易理解，但是，对于回归问题利用决策树处理往往存在疑惑，下面通过两者对比，理解回归决策树。以C4.5分类决策树为例，C4.5分类决策树在每次分枝时，是穷举每一个属性的每一个阈值，找到使得按照属性值≤阈值，和属性值>阈值分成的两个分枝的熵优选的阈值，按照该标准分枝得到两个新结点，用同样的方法继续分枝直到所有样本数据都被分入专享的叶子结点，或达到预设的终止条件，若最终叶子结点中的标签类别不专享，则以多数人的性别作为该叶子结点的性别。分类决策树使用信息增益或增益比例来划分结点；每个结点样本的类别情况通过多数原则决定。回归决策树总体流程也是类似，区别在于，回归决策树的每个结点(不一定是叶子结点)都会得到一个预测值，以年龄为例，该预测值等于属于这个结点的所有人年龄的平均值。分枝时穷举每一个属性值的每个阈值找优选的分割点，但衡量优选的标准不再是优选熵，而是最小化均方差。也就是被预测出错的人数越多，错得越离谱，均方差就越大，通过最小化均方差能够找到最可靠的分枝依据。分枝直到每个叶子结点上人的年龄都专享或达到预设的终止条件(如叶子个数上限)，若最终叶子结点上人的年龄不专享，则以该结点上所有人的平均年龄作为该叶子结点的预测年龄。回归决策树使用优选均方差划分结点；每个结点样本的均值作为测试样本的回归预测值。 5.2基于决策树算法的算法改进在5.1.1节对于决策树形成步骤介绍时，提到一个概念“数据集的优选特征”，它是决策树形成时进行逐层划分的依据。为了描述这个“优选的特征”，需要引入一个重要的概念“信息熵”［4］。它是1948年，香农提出的用于表征信息量大小与其不确定性之间的关系。假设当前样本集合D中共包含n类样本，其中，第k类样本所占的比例为pk,(k=1,2,3,…,n)，则D的信息熵的定义为： EntD=-∑nk=1pklog2pk(5.2) 对于信息熵Ent(D)，也可以称为信息的凌乱程度，其数值越大，则表示不确定性越大。 5.2.1ID3决策树 ID3决策树算法是指依据上述的信息熵Info(D)进行分叉的算法。为了表征决策树在分叉时属性选择的好坏，通过信息增益量(Information Gain)进行表示： Gain(A)=Info(D)-Info_AD(5.3) 式中，Info(D)表示数据集D的信息量，Info_A(D)表示以属性A进行划分时，获得结点关于分类标签的信息量。一般而言，信息增益量越大，则意味着使用属性A来进行划分所获得的“纯度提升”越大。因此，可以用信息增益量来进行决策树的划分属性的选择。有名的ID3决策树学习算法就是以信息增益量为准则来选择划分属性的［5］。同样，用简单的实例进行讲解，以便读者能够具体地理解ID3算法的执行方法。假设样本数据如表5.3所示。表5.3客户购买计算机数据统计表序号年龄收入学生信用购买 1青年高否差否 2青年高否优否 3中年高否差是 4老年中否差是 5老年低是差是 6老年低是优否续表序号年龄收入学生信用购买 7中年低是优是 8青年中否差否 9青年低是差是 10老年中是差是 11青年中是优是 12中年中否优是 13中年高是差是 14老年中否优否依据表5.3中的数据，进行决策树建立，对于初学者一定开始迷惑，决策树第一次分叉是选择年龄、收入、学生还是信用等级呢？值得庆幸的是，上文中了解到信息增益量这一概念，且信息增益量大的属性越应该作为样本分叉的属性。下面分别计算样本的信息熵Info(D)及以某属性进行划分时，得到结点的信息量Info_A(D)。 InfoD=-914log2914-514log2514=0.940 Info_年龄D=514-25log225-35log235+414-44log244-04log204+ 514-35log235-25log225=0.694 相同方法计算Info_收入D=0.911，Info_学生D=0.798，Info_信用D=0892。相应的信息增益量分别为Gain(年龄)=0.246，Gain(学生)=0.151，Gain(信用)=0.048，Gain(收入)=0.029。通过大小比较，可知年龄属性的信息增益量优选，因此，此次分叉属性选择年龄属性。分叉后形成的结点包含的数据作为新的数据集，依据上述方法，依次类推，即可建立整个决策树。

机器学习入门到实战——MATLAB实践应用

库存： {{selectedSku?.stock}} 库存充足

上架到店铺