您好,欢迎来到聚文网。 登录 免费注册
特征工程的艺术 通用技巧与实用案例

特征工程的艺术 通用技巧与实用案例

  • 字数: 279000
  • 装帧: 平装
  • 出版社: 人民邮电出版社
  • 作者: (加)巴勃罗·迪布
  • 出版日期: 2022-05-01
  • 商品条码: 9787115588418
  • 版次: 1
  • 开本: 16开
  • 页数: 212
  • 出版年份: 2022
定价:¥89.8 销售价:登录后查看价格  ¥{{selectedSku?.salePrice}} 
库存: {{selectedSku?.stock}} 库存充足
{{item.title}}:
{{its.name}}
精选
编辑推荐
为改善机器学习模型的表现,你会花多少时间修改输入数据的特征?图灵奖得主Yoshua Bengio曾说:“好的输入特征是机器学习取得成功的基本条件。在产业化机器学习中,特征工程所占的工作量接近90%。”修改数据特征以更好地捕获问题的本质,这是机器学习的重中之重。 没有高深的领域知识能否进行高质量的特征工程?本书直面这一充满争议的话题,在不考虑领域知识的情况下,给出了特征工程的一些通用技巧。此外,本书还展示了丰富的案例,涵盖图数据、时间戳数据、文本数据和图像数据。你将在学习各种技巧和诀窍的过程中,逐渐领会特征工程的艺术。
内容简介
   特征工程可以修改数据特征,更好地捕获问题本质,从而改进结果。这个过程既是一种艺术,也是技巧和诀窍的一种结合。本书是一本特征工程实用指南,主要探讨如何利用特征工程提升机器学习解决方案的性能。本书从特征工程的基本概念和技术开始介绍,建立了一种独特的跨领域方法,通过充分研究案例详细介绍了图数据、时间戳数据、文本数据和图像数据的处理方法,包括分箱、折外估计、特征选择、数据降维和可变长度数据编码等重要主题。
本书适合机器学习相关从业者和数据科学家阅读。
作者简介
巴勃罗·迪布(Pablo Duboue) NLP学者。2005年博士毕业于美国哥伦比亚大学,师从ACL前主席Kathleen McKeown教授,曾是IBM Watson DeepQA团队成员。2016年创办NLP技术公司Textualization。他有丰富的教学经验,是世界多所大学的访问教授。
目录
第一部分基础知识
第1章简介
1.1特征工程
1.2模型评价
1.2.1度量
1.2.2交叉验证
1.2.3士拟合
1.2.4维数灾难
1.3周期
1.3.1ML周期
1.3.2特征工程周期
1.4分析
1.4.1幂索性数据分析
1.4.2差分析
1.5其他过程
1.5.1域建模
1.5.2特征构建
1.6讨论
1.7扩展学习
第2章特征组合:归一化、离散化和异常值
2.1归一化特征
2.1.1标准化和去相关性
2.1.2平滑
2.1.3特征加权
2.2离散化和分箱
2.2.1无监督离散化
2.2.2督离散化
2.3描述性特征
2.3.1直方图
2.3.2其他描述性特征
2.4处理异常值
2.5高级技术
2.6扩展学习
第3章特征扩展:可计算特征、填充与核技巧
3.1可计算特征
3.2填充
3.3复杂特征分解
3.4核操作特征扩展
3.5扩展学习
第4章特征缩减:特征选择、降维和嵌入
4.1特征选择
4.1.1度量
4.1.2组成特征集:搜索与筛选
4.1.3高级技术
4.2正则化与嵌入式特征选择
4.2.1L2正则化:岭回归
4.2.2L1正则化:LASSO
4.2.3其他使用嵌入式特征选择的算法
4.3数据降维
4.3.1特征哈希
4.3.2随机投影
4.3.3奇异值分解
4.3.4隐狄利克雷分配
4.3.5聚类
4.3.6其他数据降维技术
4.3.7嵌入
4.4扩展学习
第5章高级主题:可变长度数据与自动特征工程
5.1可变长度特征向量
5.1.1集合
5.1.2列表
5.1.3树
5.1.4图
5.1.5时间序列
5.2基于实例的特征工程
5.3深度学习与特征工程
5.4自动特征工程
5.4.1特征学习
5.4.2无监督特征工程
5.5扩展学习
第二部分案例研究
第6章图数据
6.0本章概述
6.1WikiCities数据集
6.2探索性数据分析
6.3第一个特征集
6.4第二个特征集
6.5最终的特征集
6.6扩展学习
第7章时间戳数据
7.0本章概述
7.1WikiCities:历史特征
7.2时间延迟特征
7.2.1填充时间戳数据
7.2.2第一次特征化:填充二阶延迟数据
7.2.3误差分析
7.3滑动窗口
7.4第三次特征化:EMA
7.5使用历史数据进行扩展
7.5.1第四次特征化:扩展的数据
7.5.2讨磺
7.6时间序列
7.6.1WikiCountries数据集
7.6.2探索性数据分析
7.6.3第一次特征化:无TS特征
7.6.4第二次特征化:使用TS作为特征
7.6.5使用模型预测作为特征
7.6.6讨磺
7.7扩展学习
第8章文本数据
8.0本章概述
8.1WikiCities:文本
8.2探索性数据分析
8.3仅数值型记号
8.3.1词类型与记号
8.3.2分词:基础知识
8.3.3第一次特征化
8.4词袋
8.4.1分词
8.4.2第二次特征化
8.5停用词和形态学特征
8.5.1停用词
8.5.2分词:词干提取
8.5.3第三次特征化
8.6上下文特征
8.6.1二元词
8.6.2第四次特征化
8.7跳跃二元词与特征哈希
8.7.1跳跃二元词
8.7.2第五次特征化
8.8数据降维与嵌入
8.8.1嵌入
8.8.2特征加权:TF-IDF
8.8.3第六次特征化
8.9结束语
8.9.1内容扩展
8.9.2文本中的结构
8.10扩展学习
第9章图像数据
9.0本章概述
9.1WikiCities:卫星图像
9.2探索性数据分析
9.3像素即特征
9.3.1第一次特征化
9.3.2可计算特征:高斯模糊
9.3.3白化
9.3.4对变动的误差分析
9.4自动数据集扩展
9.4.1仿射变换
9.4.2第二次特征化
9.5描述性特征:直方图
9.6局部特征检测器:角点
9.6.1Harris角点检测
9.6.2第四次特征化
9.7数据降维:HOG
9.8结束语
9.9扩展学习
第10章其他领域:视频、GIS和偏好
10.1视频
10.1.1数据:屏幕录制
10.1.2关键帧检测
10.1.3目标跟踪:均值漂移
10.1.4扩展学习
10.2地理特征
10.3偏好
10.3.1数据:Linux核心代码提交
10.3.2填充偏好数据
10.3.3扩展学习

蜀ICP备2024047804号

Copyright 版权所有 © jvwen.com 聚文网