您好,欢迎来到聚文网。
登录
免费注册
网站首页
|
搜索
热搜:
磁力片
|
漫画
|
购物车
0
我的订单
商品分类
首页
幼儿
文学
社科
教辅
生活
销量榜
特征工程训练营
字数: 282000
装帧: 平装
出版社: 清华大学出版社
作者: (美)希南·奥兹德米尔 著 殷海英 译
出版日期: 2024-09-01
商品条码: 9787302669098
版次: 1
开本: 32开
页数: 324
出版年份: 2024
定价:
¥69.8
销售价:
登录后查看价格
¥{{selectedSku?.salePrice}}
库存:
{{selectedSku?.stock}}
库存充足
{{item.title}}:
{{its.name}}
加入购物车
立即购买
加入书单
收藏
精选
¥5.83
世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版
¥5.39
正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册
¥8.58
简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版
¥5.83
世界文学名著全49册中小学生青少年课外书籍文学小说批发正版
¥4.95
全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷
¥8.69
父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册
¥24.2
好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册
¥7.15
幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书
¥11.55
用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书
¥19.8
少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版
¥64
科学真好玩
¥12.7
一年级下4册·读读童谣和儿歌
¥38.4
原生态新生代(传统木版年画的当代传承国际研讨会论文集)
¥11.14
法国经典中篇小说
¥11.32
上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)
¥21.56
猫的摇篮(精)
¥30.72
幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书
¥24.94
旧时风物(精)
¥12.04
三希堂三帖/墨林珍赏
¥6.88
寒山子庞居士诗帖/墨林珍赏
¥6.88
苕溪帖/墨林珍赏
¥6.88
楷书王维诗卷/墨林珍赏
¥9.46
兰亭序/墨林珍赏
¥7.74
祭侄文稿/墨林珍赏
¥7.74
蜀素帖/墨林珍赏
¥12.04
真草千字文/墨林珍赏
¥114.4
进宴仪轨(精)/中国古代舞乐域外图书
¥24.94
舞蹈音乐的基础理论与应用
内容简介
通过“特征工程”技术,可优化训练数据,提升机器学习流程的输出效果!“特征工程”基于现有数据设计相关的输入变量,由此简化训练过程,增强模型性能。调整超参数或模型的效果都不如特征工程;特征工程通过改变数据流程,大幅提升了性能。
《特征工程训练营》将列举6个实践项目,引导你利用特征工程优化训练数据。每章探讨一个代码驱动的新案例,涉及金融、医疗等行业。你将学会清洗和转换数据,减轻偏见。本书呈现各种性能提升技巧,涵盖从自然语言处理到时间序列分析等所有主要机器学习子领域。
主要内容
·识别和实现特征转换
·用非结构化数据构建ML(机器学习)流程
·量化并尽量避免ML流程中的偏见
·使用特征存储构建实时ML流程
·通过操纵输入数据来增强现有ML流程
读者对象
本书面向熟悉Python且经验丰富的ML工程师。
作者简介
Sinan Ozdemir是Shiba公司的创始人兼首席技术官,他曾在约翰·霍普金斯大学担任数据科学讲师,迄今已出版了多本关于数据科学和机器学习的教材。
目录
第1章 特征工程简介 1
1.1 特征工程是什么,为什么它如此重要 2
1.1.1 谁需要特征工程 4
1.1.2 特征工程的局限性 4
1.1.3 出色的数据,出色的模型 5
1.2 特征工程流程 6
1.3 本书的编排方式 10
1.3.1 特征工程的五种类型 11
1.3.2 本书案例研究的概述 12
1.4 本章小结 14
第2章 特征工程基础知识 17
2.1 数据类型 18
2.1.1 结构化数据 18
2.1.2 非结构化数据 18
2.2 数据的四个层次 20
2.2.1 定性数据与定量数据 20
2.2.2 名义层次 21
2.2.3 序数层次 23
2.2.4 区间层次 24
2.2.5 比率层次 26
2.3 特征工程的类型 31
2.3.1 特征改进 31
2.3.2 特征构建 32
2.3.3 特征选择 34
2.3.4 特征提取 35
2.3.5 特征学习 36
2.4 如何评估特征工程的成果 38
2.4.1 评估指标1:机器学习度量标准 38
2.4.2 评估指标2:可解释性 39
2.4.3 评估指标3:公平性和偏见 39
2.4.4 评估指标4:机器学习复杂性和速度 40
2.5 本章小结 41
第3章 医疗服务:COVID-19的诊断 43
3.1 COVID 流感诊断数据集 45
3.2 探索性数据分析 49
3.3 特征改进 52
3.3.1 补充缺失的定量数据 52
3.3.2 填充缺失的定性数据 58
3.4 特征构建 61
3.4.1 数值特征的转换 61
3.4.2 构建分类数据 68
3.5 构建特征工程流程 75
3.6 特征选择 84
3.6.1 互信息 84
3.6.2 假设检验 85
3.6.3 使用机器学习 87
3.7 练习与答案 90
3.8 本章小结 90
第4章 偏见与公平性:再犯率建模 93
4.1 COMPAS 数据集 93
4.2 探索性数据分析 97
4.3 测量偏见和公平性 101
4.3.1 不同对待与不同影响 102
4.3.2 公平的定义 102
4.4 构建基准模型 105
4.4.1 特征构建 105
4.4.2 构建基准流程 106
4.4.3 测量基准模型的偏见 108
4.5 偏见缓解 115
4.5.1 模型训练前 116
4.5.2 模型训练中 116
4.5.3 模型训练后 116
4.6 构建偏见感知模型 117
4.6.1 特征构建:使用Yeo-Johnson 转换器处理不同的影响 117
4.6.2 特征提取:使用aif360 学习公平表示实现 123
4.7 练习与答案 129
4.8 本章小结 130
第5章 自然语言处理:社交媒体情感分类 131
5.1 推文情感数据集 134
5.2 文本向量化 138
5.2.1 特征构建:词袋模型 138
5.2.2 计数向量化 139
5.2.3 TF-IDF向量化 146
5.3 特征改进 149
5.3.1 清理文本中的噪声 150
5.3.2 对token 进行标准化 152
5.4 特征提取 155
5.5 特征学习 158
5.5.1 自动编码器简介 159
5.5.2 训练自动编码器以学习特征 160
5.5.3 迁移学习简介·· 165
5.5.4 使用BERT 的迁移学习 166
5.5.5 使用BERT 的预训练特征 169
5.6 文本向量化回顾 172
5.7 练习与答案 173
5.8 本章小结 174
第6章 计算机视觉:对象识别 175
6.1 CIFAR-10 数据集 176
6.2 特征构建:像素作为特征 178
6.3 特征提取:梯度方向直方图 181
6.4 使用VGG-11 进行特征学习 190
6.4.1 使用预训练的VGG-11 作为特征提取器 191
6.4.2 微调VGG-11 196
6.4.3 使用经过微调的VGG-11 特征进行逻辑回归 201
6.5 图像矢量化总结 203
6.6 练习与答案 204
6.7 本章小结 205
第7章 时间序列分析:利用机器学习进行短线交易 207
7.1 TWLO 数据集 208
7.2 特征构建 213
7.2.1 日期/时间特征 213
7.2.2 滞后特征 215
7.2.3 滚动/扩展窗口特征 216
7.2.4 领域特定特征 229
7.3 特征选择 238
7.3.1 使用机器学习选择特征 238
7.3.2 递归特征消除 240
7.4 特征提取 242
7.5 结论 248
7.6 练习与答案 249
7.7 本章小结 251
第8章 特征存储 253
8.1 MLOps 和特征存储 254
8.1.1 使用特征存储的收益 255
8.1.2 维基百科、MLOps和特征存储 260
8.2 使用Hopsworks 设置特征存储 262
8.2.1 使用HSFS API 连接到Hopsworks 263
8.2.2 特征组 265
8.2.3 使用特征组来选择数据 273
8.3 在Hopsworks 中创建训练数据 275
8.3.1 训练数据集 276
8.3.2 数据溯源 280
8.4 练习与答案 281
8.5 本章小结 281
第9章 汇总 283
9.1 重新审视特征工程流程 283
9.2 主要收获 284
9.2.1 特征工程与机器学习模型的选择同样至关重要 285
9.2.2 特征工程并非一劳永逸的解决方案 286
9.3 特征工程回顾 286
9.3.1 特征改进 286
9.3.2 特征构建 286
9.3.3 特征选择 287
9.3.4 特征提取 287
9.3.5 特征学习 289
9.4 数据类型特定的特征工程技术 290
9.4.1 结构化数据 290
9.4.2 非结构化数据 293
9.5 常见问题解答 295
9.5.1 何时应将分类变量进行虚拟化,而不是将它们保留为单独的列 295
9.5.2 如何确定是否需要处理数据中的偏见 297
9.6 其他特征工程技术 298
9.6.1 分类虚拟桶化 298
9.6.2 将学到的特征与传统特征结合 300
9.6.3 其他原始数据向量化器 305
9.7 扩展阅读 306
9.8 本章小结 307
×
Close
添加到书单
加载中...
点此新建书单
×
Close
新建书单
标题:
简介:
蜀ICP备2024047804号
Copyright 版权所有 © jvwen.com 聚文网