前言这是一本关于数据分析的书,专注于预测建模的实际应用。“预测建模”一词可能让人联想起诸如机器学习、模式识别和数据挖掘。事实上,这样的联想是很自然的,这些专业名词指代的方法是预测建模整体过程的一部分。但是预测建模所涵盖的范围远大于发现数据模式的工具和技术。应用预测建模定义了这样一个建立模型的过程,我们能理解和量化模型对未来即将看到的数据的预测准确度。本书的核心内容就是其中的整个过程。 本书意在为实践者提供预测建模过程的指导,读者可以从阅读中学到许多(建模)方法以及提高对许多常用的、现代的有效模型的认识。我们会介绍许多统计和数学技术,但在任何情况下我们描述技术细节的动机都是帮助读者理解模型的优缺点,而非(单纯)数理统计知识。我们极力避免复杂的公式,但是有少数例外。关于预测模型的理论知识,推荐这两本书,即Hastie等(2008)和Bishop (2006)。本书的读者需要有一些基本的统计学知识,包括方差、相关性、简单线性回归以及基本的统计假设检验(如p值和检验统计量)。 预测建模的过程本质上具有很强的应用实践性。但我们研究发现,很多文章、出版物不能让读者再现(他们的)建模结果,因为数据不公开,或读者无法使用相应软件,又或软件需付费。Buckheit和Donoho(1995)对传统学术界提出了相似的批评: 一篇发表于科学刊物上关于计算机科学的文章本身不是学术,仅是关于学术的广告。真正的学术是完整的软件开发环境和能够生成那些图的所有指令集。 因此,我们的目标是尽可能地具有实践应用性,让读者能在一定精度范围内重复本书的结果,且可以自然地将书中的预测建模方法应用到他们自己的数据上。再者,对于整个建模过程,我们使用R语言(Ihaka和Gentleman 1996; R Development Core Team 2010),这是一个用于数学和统计计算的免费软件。几乎所有例子中的数据集都可以在相应R包中找到。R包AppliedPredictiveModeling包含了书中使用的很多数据,以及可以用于再现书中每一章分析结果的R代码。 我们选择R作为计算引擎有如下几个原因。首先R是免费的(虽然也有商业版的R),可以在不同的操作系统上使用。其次,它在通用公共许可(General Public License)下发行(免费软件基金2007年6月),该许可阐明程序再次发布的规则。在此构架下,任何人可以任意检查、修改源程序。由于开源特性,很多预测模型已经由R包可以实现。再者R有进行预测建模的大量强大的功能。不熟悉R的读者可以在网上找到大量的入门教程(见附录)。 由于篇幅所限,本书没有涵盖广义加性模型、模型集成、网络模型、时间序列等内容。 本书还有一个配套网站: http://appliedpredictivemodeling.com/其中含有一些相关内容。 没有如下这些人的指导和帮助不会有本书的问世:Walter H Carter, Jim Garrett,Chris Gennings, Paul Harms, Chris Keefer, William Klinger, Daijin Ko, Rich Moore, David Neuhouser, David Potter, David Pyne, William Rayens, Arnold Stromberg和Thomas Vidmar。我们还要感谢Ross Quinlan对Cubist和 C50部分的帮助,他们帮我们修正了这两部分的一些描述。我们还要感谢Springer出版社的Marc Strauss和Hannah Bracken以及审阅者Vini Bonato、Thomas Miller、Ross Quinlan、Eric Siegel、Stan Young和一位匿名审阅者。最后我们要感谢家人的支持:Miranda Kuhn, Stefan Kuhn, Bobby Kuhn, Robert Kuhn, Karen Kuhn 和Mary Ann Kuhn; Warren和Kay Johnson,Valerie和Truman Johnson。 Max KuhnKjell Johnson