您好,欢迎来到聚文网。 登录 免费注册
机器学习实践指南

机器学习实践指南

  • 装帧: 平装
  • 出版社: 机械工业出版社
  • 作者: 麦好 著
  • 出版日期: 2016-07-01
  • 商品条码: 9787111540212
  • 版次: 2
  • 开本: 16开
  • 页数: 526
  • 出版年份: 2016
定价:¥89 销售价:登录后查看价格  ¥{{selectedSku?.salePrice}} 
库存: {{selectedSku?.stock}} 库存充足
{{item.title}}:
{{its.name}}
精选
内容简介
全书分为准备篇、基础篇、统计分析实战和机器学习实战篇。由于目前出版的机器学习大多偏重理论,这对机器学习类书籍的读者带来了极大的挑战,抽象的理论加上成堆的数学公式将大量渴求学习的人们挡在了门外。针对这种情况,本书力求理论联系实际,对理论基础进行一定的介绍,注重机器学习算法的实际运用,让读者明白其中原理,而对机器学习算法涉及的深层数学知识及其复杂的数学推导在本书中涉及较少。
作者简介
麦好,计算机专业工程硕士,CSDN专家,青年海归协会成员,中国量化投资学会山西分会成员,目前从事金融智能算法与投资数据分析工作。有十余年架构设计及算法设计经验,先后就职于多家软件科技公司、电子科技公司,实战经验丰富,擅长使用C、C++、Python、汇编、R、SAS等语言,参与过信息系统核心组件、社区插件、垂直搜索引擎、文本分析系统、通信信息隐藏、视频服务、汇编底层设计、基于分布式计算平台的网络数据爬取与分析等项目。近期关注计算神经学、分子生物学、智能机器人、物联网等方向。
目录
推荐序
前言
第一部分准备篇
第1章机器学习发展及应用前景2
1.1机器学习概述2
1.1.1什么是机器学习3
1.1.2机器学习的发展3
1.1.3机器学习的未来4
1.2机器学习应用前景5
1.2.1数据分析与挖掘5
1.2.2模式识别6
1.2.3更广阔的领域6
1.3小结7
第2章科学计算平台8
2.1科学计算软件平台概述9
2.1.1常用的科学计算软件9
2.1.2本书使用的工程计算平台10
2.2计算平台的配置11
2.2.1Numpy等Python科学计算包的安装与配置11
2.2.2OpenCV安装与配置14
2.2.3mlpy安装与配置14
2.2.4BeautifulSoup安装与配置15
2.2.5Neurolab安装与配置15
2.2.6R安装与配置16
2.3小结16
第二部分基础篇
第3章计算平台应用实例18
3.1Python计算平台简介及应用实例18
3.1.1Python语言基础18
3.1.2Numpy库29
3.1.3pylab、matplotlib绘图36
3.1.4图像基础38
3.1.5图像融合与图像镜像46
3.1.6图像灰度化与图像加噪48
3.1.7声音基础51
3.1.8声音音量调节53
3.1.9图像信息隐藏58
3.1.10声音信息隐藏62
3.2R语言基础68
3.2.1基本操作69
3.2.2向量71
3.2.3对象集属性77
3.2.4因子和有序因子78
3.2.5循环语句79
3.2.6条件语句79
3.3R语言科学计算80
3.3.1分类(组)统计80
3.3.2数组与矩阵基础81
3.3.3数组运算84
3.3.4矩阵运算85
3.4R语言计算实例93
3.4.1学生数据集读写93
3.4.2最小二乘法拟合94
3.4.3交叉因子频率分析96
3.4.4向量模长计算97
3.4.5欧氏距离计算98
3.5小结99
思考题99
第4章生产环境基础100
4.1WindowsServer2008基础100
4.1.1WindowsServer2008R2概述101
4.1.2WindowsPowerShell102
4.2Linux基础103
4.2.1Linux命令104
4.2.2Shell基础114
4.3Vim编辑器122
4.3.1Vim编辑器概述122
4.3.2Vim常用命令123
4.4虚拟化平台124
4.4.1CitrixXenserver概述125
4.4.2CitrixXenserver部署126
4.4.3基于XenCenter的虚拟服务器管理126
4.5Linux环境下的NumPy安装135
4.6Linux环境下的R运行环境136
4.7PyPy编译器136
4.7.1PyPy概述136
4.7.2PyPy安装与配置137
4.7.3PyPy性能137
4.7.4PyPy实践之Lempel-Ziv压缩138
4.8小结145
思考题146
第三部分统计分析实战篇
第5章统计分析基础148
5.1数据分析概述148
5.2数学基础149
5.3回归分析154
5.3.1单变量线性回归154
5.3.2多元线性回归156
5.3.3非线性回归157
5.4数据分析基础159
5.4.1区间频率分布159
5.4.2数据直方图161
5.4.3数据散点图162
5.4.4五分位数164
5.4.5累积分布函数165
5.4.6核密度估计166
5.5数据分布分析167
5.6小结169
思考题170
第6章描述性分析案例171
6.1数据图形化案例解析171
6.1.1点图171
6.1.2饼图和条形图172
6.1.3茎叶图和箱线图173
6.2数据分布趋势案例解析175
6.2.1平均值175
6.2.2加权平均值175
6.2.3数据排序176
6.2.4中位数177
6.2.5极差、半极差177
6.2.6方差178
6.2.7标准差178
6.2.8变异系数、样本平方和178
6.2.9偏度系数、峰度系数179
6.3正态分布案例解析180
6.3.1正态分布函数180
6.3.2峰度系数分析181
6.3.3累积分布概率181
6.3.4概率密度函数182
6.3.5分位点183
6.3.6频率直方图185
6.3.7核概率密度与正态概率分布图185
6.3.8正态检验与分布拟合186
6.3.9其他分布及其拟合188
6.4多变量分析189
6.4.1多变量数据分析189
6.4.2多元数据相关性分析197
6.5小结201
思考题201
第7章假设检验与回归模型案例202
7.1假设检验202
7.1.1二项分布假设检验202
7.1.2数据分布检验204
7.1.3正态总体均值检验205
7.1.4列联表206
7.1.5符号检测207
7.1.6秩相关检验210
7.1.7Kendall相关检验213
7.2回归模型214
7.2.1回归预测与显著性检验214
7.2.2回归诊断216
7.2.3回归优化217
7.2.4主成分回归219
7.2.5广义线性模型221
7.3小结226
思考题226
第四部分机器学习实战篇
第8章机器学习算法230
8.1神经网络230
8.1.1Rosenblatt感知器232
8.1.2梯度下降245
8.1.3反向传播与多层感知器251
8.1.4Python神经网络库270
8.2统计算法272
8.2.1平均值272
8.2.2方差与标准差274
8.2.3贝叶斯算法276
8.3欧氏距离279
8.4余弦相似度280
8.5SVM281
8.5.1数学原理281
8.5.2SMO算法283
8.5.3算法应用283
8.6回归算法287
8.6.1线性代数基础288
8.6.2最小二乘法原理289
8.6.3线性回归290
8.6.4多元非线性回归292
8.6.5岭回归方法294
8.6.6伪逆方法295
8.7PCA降维296
8.8关联规则297
8.8.1关联规则概述297
8.8.2频繁项集算法298
8.8.3关联规则生成301
8.8.4实例分析302
8.9自动分类306
8.9.1聚类算法306
8.9.2决策树313
8.9.3AdaBoost316
8.9.4竞争型神经网络317
8.9.5Hamming神经网络323
8.10小结325
思考题325
第9章数据拟合案例327
9.1数据拟合327
9.1.1图像分析法327
9.1.2神经网络拟合法338
9.2线性滤波352
9.2.1WAV声音文件352
9.2.2线性滤波算法过程352
9.2.3滤波Python实现353
9.3数据或曲线平滑358
9.3.1平滑概述358
9.3.2移动平均359
9.3.3递归线性过滤362
9.3.4指数平滑364
9.4小结368
思考题368
第10章图像算法案例370
10.1图像边缘算法370
10.1.1数字图像基础370
10.1.2算法描述371
10.2图像匹配372
10.2.1差分矩阵求和373
10.2.2差分矩阵均值375
10.2.3欧氏距离匹配376
10.3图像分类382
10.3.1余弦相似度382
10.3.2PCA图像特征提取算法388
10.3.3基于神经网络的图像分类389
10.3.4基于SVM的图像分类394
10.4高斯噪声生成397
10.5二值化401
10.5.1threshold401
10.5.2adaptiveThreshold402
10.6插值与缩放404
10.7仿射405
10.7.1仿射原理405
10.7.2仿射变换实例405
10.8透视投影与透视变换406
10.8.1透视投影原理406
10.8.2透视投影实例407
10.9灰度变换与图像增强409
10.9.1灰度变换概述409
10.9.2对数变换409
10.9.3分段线性变换410
10.9.4指数变换411
10.9.5直方图均衡化412
10.10图像滤波与除噪415
10.10.1均一化块滤波415
10.10.2邻域平均法420
10.10.3中值滤波423
10.10.4高斯滤波427
10.10.5双边滤波429
10.10.6卷积滤波431
10.10.7边缘检测433
10.11小结435
思考题435
第11章机器视觉案例437
11.1人脸辨识437
11.1.1人脸定位437
11.1.2人脸辨识439
11.2手写数字识别446
11.2.1手写数字识别算法446
11.2.2算法的Python实现447
11.3运动侦测449
11.3.1视频采集450
11.3.2差分算法452
11.3.3光流法456
11.4形状检测458
11.4.1KNN算法概述458
11.4.2形状特征提取459
11.4.3形状分类459
11.5小结462
思考题462
第12章文本分类案例463
12.1文本分类概述463
12.2余弦相似度分类464
12.2.1中文分词465
12.2.2停用词清理467
12.2.3算法实战468
12.3朴素贝叶斯分类473
12.3.1算法描述473
12.3.2先验概率计算474
12.3.3最大后验概率474
12.3.4算法实现474
12.4自然语言处理480
12.4.1NLTK简介480
12.4.2NLTK与jieba的配置481
12.4.3中文分词并标注词性483
12.4.4词特征指标分析484
12.4.5Web文档分析499
12.4.6Web文档的朴素贝叶斯分类503
12.4.7语法结构分析515
12.4.8Web文档聚类518
12.5小结526
思考题526
摘要
Preface?前    言为什么要写这本书随着全球第三次工业革命的迅猛发展,机器学习技术异军突起,人类对机器学习技术的研究也开辟出了许多全新的应用领域,这使智能机器的计算能力和可定制性上升到了一个新的层次。到了2015年,人类在机器学习领域取得了一系列重大的突破,这项技术已悄无声息地潜入我们的日常生活,而在未来,机器学习也将拥抱变化,持续发力。如今,它已经在各行各业的技术革新中扮演着日益重要的角色,从各方面影响和改变着我们的生活。
    近年来,机器学习技术在国外得到了海量应用和深入发展。2015年11月,谷歌开源了全新的TensorFlow机器学习系统,该系统更快、更智能,也更具有弹性。2015年1月,机器学习平台 GraphLab改名为Dato,并获得了 1850 万美元的新融资(投资方为 Vulcan Capital 、Opus Capital 、New Enterprise Associates、Madrona Venture Group),此前他们曾获得 680 万美元的融资。2015年8月,Facebook推出了“M”,Facebook认为人类不仅会回答人工智能所不能回答的问题,而且从长远来看,人类也会帮助改善人工智能技术,“M”除了能做到回答问题、查阅信息等基本功能外,还可以帮助用户完成如购买商品、餐厅定位、安排旅行计划等操作。在2015年12月召开的“2015年神经信息处理系统”(NIPS)会议上,微软研究人员和工程师公开了20多篇机器学习最新研究成果的论文。此外,微软还宣布,机器学习正在成为Windows 10的一部分:Skype翻译可以将口语几乎实时地翻译成其他语言,就像《星际迷航》中的通用翻译器那样,可以做到面对面的交流。Cortana个人数字助理在与用户的互动中不断学习与改进,从而帮助用户管理日历、跟踪快递,甚至能与用户聊天和讲笑话,实现真正的个性化互动体验。Clutter是微软Office 2016的成员,通过学习它可以识别出哪些电子邮件对用户来说最重要,并自动将不重要的邮件重定向到一个单独的文件夹中,从而保持用户收件箱的整洁。2015年9月,美军军队医疗中心指挥官少将Steve Jones在美军陆军的一次会议上发言表示,未来可以让智能机器人代替人类上战场运送伤员,美国军方甚至高调宣布:未来战场上机器人救起的可能不是人,而是机器人,因为智能机器人军团将代替人类出征。
    在国内,机器学习掀起了技术革新的热潮,智能技术得到了广泛的普及和应用。隶属于中国科学院的新松机器人自动化公司生产了智能复合型机器人,这个安装了眼睛和感知器件的智能机器人,可以在车间里自由地行走并十分精确地完成任务,当其他工位人手不足时,接到指令的他还会主动上前帮忙,马上进入角色并开始工作。百度创造和完善了大规模机器学习的技术,搭建了一个能容纳万亿特征数据的、分钟级别模型更新的、高效训练的点击率预估系统;为进一步深入地发展机器学习技术,百度开始研究如何从“机器学习”到“复制人类大脑”; 此外,百度甚至在2016年提出,百度的产品和服务都靠机器学习等技术来驱动。
    随着机器学习技术在国内外的大量应用,机器学习工程师成为炙手可热的职位。现在中国已经悄然兴起了机器学习的学习热潮,掌握了机器学习技术的工程师将成为各大IT巨头疯抢的“香馍馍”,良好的发展势头和较高的职业薪水,吸引着越来越多的软件工程师和数据分析师涌入机器学习的领域。国内知名的公司百度、阿里巴巴、腾讯(俗称BAT)为迎接大数据时代带来的挑战,早已全面引进机器学习方面的人才,并有组织地对机器学习技术展开大规模的、更深入的研究。其他各大公司(包括非IT行业的公司)也提出了引进机器学习研发工程师的渴求。
    但是,机器学习的入门门槛较高,尤其是对研究者的数学理解能力有较高的要求,相对于数据结构、算法导论中讲述的计算机算法及系统架构知识来说,机器学习是一个全新的领域,理解机器学习算法往往要从理解它所涉及的数学公式和数学知识开始,打好数学基础是非常有必要的,一旦掌握了数学分析、线性代数、概率与统计、统计学、离散数学、抽象代数、数学建模等数学理论后,理解机器学习算法就会容易很多,不再畏惧那些让人生厌的、麻烦的数学符号和数学公式,说不定还会喜欢上这些数学公式,并亲自推导一番。希望本书能帮助朋友们进入机器学习的精彩世界。
    读者对象开发人员。在理解机器学习算法的基础上,调用机器学习的中间库进行开发,将机器学习应用于各种场景,如数据分析、图像识别、文本分类、搜索引擎、中文智能输入法等。
    架构师。在理解机器学习算法的基础上,适应现代云计算平台的发展,将机器学习算法应用在大规模的并行计算上。同时,机器学习算法是大数据分析的基础,如神经网络、SVM、相似度分析、统计分析等技术。
    机器学习的初、中级读者。人类对机器学习的研究只是一个开始,还远远没有结束。近年来,机器学习一直保持着强劲的发展势头,并拥有美好的发展前景,这点不同于某些软件开发领域中的程序语言或架构知识。掌握机器学习技术有一定的难度,但也意味着,掌握机器学习的技术就能获得更高的薪水和更具前景的职业。
    如何阅读本书全书分为准备篇、基础篇、 统计分析实战篇和机器学习实战篇。机器学习算法建立在复杂的计算理论基础之上,并涉及多门数学学科。抽象的理论加上成堆的数学公式,给部分读者带来了极大的挑战,将渴求学习的人们挡在了门外。针对这种情况,本书力求理论联系实际,在介绍理论基础的同时,注重机器学习算法的实际运用,让读者更好地明白其中的原理。
    准备篇中首先将介绍机器学习的发展及应用前景,使读者产生浓厚的兴趣,同时也将介绍目前常用的科学计算平台和本书将用到的工程计算平台,使读者消除对机器学习的畏难情绪,这些平台的使用也降低了机器学习软件实现的难度。
    基础篇将介绍数学知识基础和计算平台应用实例,介绍计算平台的开发基本知识,并应用这些平台实现计算应用。
    最后,本书将针对统计分析实战和机器学习实战两个部分帮助读者建立机器学习实战指南,应用计算平台对统计分析及机器学习算法进行实现和应用,同时还会附上效果图,让读者对机器学习的基本应用和理论基础有一个形象的理解。
    勘误和支持由于作者的水平有限,编写的时间也很仓促,书中难免会出现一些错误或不准确的地方,不妥之处恳请读者批评指正。如果遇到任何问题,或有更多的宝贵意见,欢迎发送邮件至我的邮箱myhaspl@myhaspl.com,很期待能够听到您的真挚反馈。此外,本书的代码及相关资源(包括思考题中涉及的数据等)的下载地址为:https://yunpan.cn/cYjhBYGLKkKTb(提取码:65ad)。
    致谢首先我要感谢伟大的电影《机械公敌》及其主角威尔?史密斯,这位美国演员主演了《当幸福来敲门》《拳王阿里》《绝地战警》《全民超人汉考克》《黑衣人》《机械公敌》,他曾获奥斯卡奖和金球奖提名。他主演的《当幸福来敲门》让很多人理解到了幸福是什么,而《机械公敌》让我看到了人工智能的未来,我相信《机械公敌》描述的以下场景在将来一定能实现:
    公元2035年,智能型机器人已被人类广泛利用,作为最好的生产工具和人类伙伴,机器人在各个领域扮演着日益重要的角色。而由于众所周知的机器人“三大安全法则”的限制,人类对这些能够胜任各种工作且毫无怨言的伙伴充满信任,它们中的很多甚至已经成为各个家庭的组成成员。
    在此,我衷心地感谢机械工业出版社华章公司的编辑杨福川老师和策划编辑杨绣国老师,由于他们的魄力和远见,让我顺利地完成了全部书稿。最后我要感谢家人的大力支持和无私奉献,正因为有他们的关心和照顾,我才有足够的时间和精力来完成本书的撰写工作。
    谨以此书,献给热爱机器学习的朋友,以及喜欢威尔?史密斯的影迷。
    麦好(Myhaspl)2016年3月于中国广东

蜀ICP备2024047804号

Copyright 版权所有 © jvwen.com 聚文网