您好,欢迎来到聚文网。 登录 免费注册
机器学习实践 数据科学应用与工作流的开发及优化

机器学习实践 数据科学应用与工作流的开发及优化

  • 装帧: 平装
  • 出版社: 机械工业出版社
  • 作者: (美)安德鲁·凯莱赫(Andrew Kelleher),(美)亚当·凯莱赫(Adam Kelleher)
  • 出版日期: 2020-04-01
  • 商品条码: 9787111651369
  • 版次: 1
  • 开本: 16开
  • 页数: 226
  • 出版年份: 2020
定价:¥99 销售价:登录后查看价格  ¥{{selectedSku?.salePrice}} 
库存: {{selectedSku?.stock}} 库存充足
{{item.title}}:
{{its.name}}
精选
内容简介
本书以作者在BuzzFeed的工作经验为基础,将机器学习和计算机工程巧妙地结合在一起。第壹部分的基本原则是数据科学世界坚实的基础;第二部分介绍现实问题中的常用算法,帮助读者迅速解决实际问题,避免被数据误导、产生结论错误;第三部分则着眼于工程实践,基于工程角度突破瓶颈,让算法能够在现实条件中得以实现。
目录
译者序

前言
作者简介
第一部分框架原则
第1章数据科学家的定位2
1.1引言2
1.2数据科学家扮演的角色2
1.2.1公司规模3
1.2.2团队背景3
1.2.3职业晋升和发展4
1.2.4重要性5
1.2.5工作细分5
1.3结论5
第2章项目流程7
2.1引言7
2.2数据团队背景7
2.2.1专门岗位与资源池8
2.2.2研究分析8
2.2.3原型设计9
2.2.4集成的工作流10
2.3敏捷开发与产品定位10
2.4结论15
第3章量化误差16
3.1引言16
3.2量化测量值的误差16
3.3抽样误差18
3.4误差传递20
3.5结论22
第4章数据编码与预处理23
4.1引言23
4.2简单文本预处理24
4.2.1分词24
4.2.2n元模型26
4.2.3稀疏26
4.2.4特征选择27
4.2.5表示学习29
4.3信息量损失31
4.4结论33
第5章假设检验34
5.1引言34
5.2什么是假设34
5.3假设检验的错误类型36
5.4p值和置信区间37
5.5多重测试和p值操控38
5.6实例39
5.7假设检验的设计40
5.8结论41
第6章数据可视化43
6.1引言43
6.2数据分布和汇总统计43
6.2.1数据分布和直方图44
6.2.2散点图和热力图48
6.2.3箱线图和误差条52
6.3时间序列图54
6.3.1移动统计54
6.3.2自相关56
6.4图可视化57
6.4.1布局算法57
6.4.2时间复杂度59
6.5结论60
第二部分算法与架构
第7章算法和架构简介62
7.1引言62
7.2架构64
7.2.1服务64
7.2.2数据源65
7.2.3分批及在线计算66
7.2.4规模扩展66
7.3模型67
7.3.1训练68
7.3.2预测68
7.3.3验证69
7.4结论70
第8章距离度量71
8.1引言71
8.2Jaccard距离71
8.2.1算法72
8.2.2时间复杂度73
8.2.3内存注意事项73
8.2.4分布式方法73
8.3MinHash74
8.3.1假设75
8.3.2时空复杂度75
8.3.3工具75
8.3.4分布式方法75
8.4余弦相似度76
8.4.1复杂度78
8.4.2内存注意事项78
8.4.3分布式方法78
8.5马氏距离78
8.5.1复杂度79
8.5.2内存注意事项79
8.5.3分布式方法79
8.6结论80
第9章回归81
9.1引言81
9.1.1选择模型82
9.1.2选择目标函数82
9.1.3模型拟合83
9.1.4模型验证84
9.2线性最小二乘87
9.2.1假设88
9.2.2复杂度89
9.2.3内存注意事项89
9.2.4工具89
9.2.5分布式方法89
9.2.6实例90
9.3线性回归中的非线性回归97
9.4随机森林100
9.4.1决策树100
9.4.2随机森林103
9.5结论106
第10章分类和聚类107
10.1引言107
10.2逻辑回归108
10.2.1假设111
10.2.2时间复杂度111
10.2.3内存注意事项112
10.2.4工具112
10.3贝叶斯推断与朴素贝叶斯112
10.3.1假设114
10.3.2复杂度114
10.3.3内存注意事项114
10.3.4工具114
10.4K-Means115
10.4.1假设118
10.4.2复杂度118
10.4.3内存注意事项118
10.4.4工具118
10.5优选特征值118
10.5.1复杂度120
10.5.2内存注意事项120
10.5.3工具120
10.6Louvain贪心算法120
10.6.1假设121
10.6.2复杂度121
10.6.3内存注意事项121
10.6.4工具121
10.7最近邻算法121
10.7.1假设123
10.7.2复杂度123
10.7.3内存注意事项123
10.7.4工具123
10.8结论123
第11章贝叶斯网络125
11.1引言125
11.2因果图、条件独立和马尔
可夫126
11.2.1因果图和条件独立126
11.2.2稳定性和依赖性127
11.3d分离和马尔可夫性质128
11.3.1马尔可夫和因式
分解128
11.3.2d分离129
11.4贝叶斯网络的因果图132
11.5模型拟合133
11.6结论136
第12章降维与隐变量模型137
12.1引言137
12.2先验137
12.3因子分析139
12.4主成分分析140
12.4.1复杂度142
12.4.2内存注意事项142
12.4.3工具142
12.5独立成分分析142
12.5.1假设145
12.5.2复杂度145
12.5.3内存注意事项146
12.5.4工具146
12.6LDA主题模型146
12.7结论152
第13章因果推断153
13.1引言153
13.2实验154
13.3观测值:一个实例157
13.4非因果阻断控制法163
13.5机器学习估计量167
13.5.1重新审视G公式167
13.5.2实例168
13.6结论172
第14章高级机器学习173
14.1引言173
14.2优化173
14.3神经网络175
14.3.1神经网络层176
14.3.2神经网络容量177
14.3.3过拟合179
14.3.4批拟合183
14.3.5损失函数183
14.4结论185
第三部分瓶颈和优化
第15章硬件基础188
15.1引言188
15.2随机存取存储器188
15.2.1访问188
15.2.2易失性189
15.3非易失性/持久化存储189
15.3.1机械硬盘或“旋转磁盘”189
15.3.2固态硬盘190
15.3.3延迟190
15.3.4分页190
15.3.5颠簸191
15.4吞吐量191
15.4.1局部性191
15.4.2执行层局部性191
15.4.3网络局部性192
15.5处理器192
15.5.1时钟频率192
15.5.2核心192
15.5.3线程193
15.5.4分支预测193
15.6结论194
第16章软件基础196
16.1引言196
16.2分页196
16.3索引197
16.4粒度197
16.5鲁棒性198
16.6提取、传输/转换、加载199
16.7结论199
第17章软件架构200
17.1引言200
17.2客户端-服务器架构200
17.3n层架构/面向服务的架构201
17.4微服务架构202
17.5整体架构203
17.6实际案例(混合架构)203
17.7结论204
第18章CAP定理205
18.1引言205
18.2一致性/并发205
18.3可用性207
18.3.1冗余207
18.3.2前端和负载均衡器207
18.3.3客户端的负载均衡209
18.3.4数据层209
18.3.5任务和Taskworker211
18.3.6故障转移211
18.4分区容错性211
18.5结论213
第19章逻辑网络拓扑节点214
19.1引言214
19.2网络图214
19.3负载均衡215
19.4缓存216
19.4.1应用程序级缓存216
19.4.2缓存服务217
19.4.3直写缓存218
19.5数据库219
19.5.1主副本数据库219
19.5.2多主结构220
19.5.3A/B副本220
19.6队列221
19.6.1任务调度和并行任务222
19.6.2异步执行223
19.6.3API缓冲223
19.7结论224
参考文献225

蜀ICP备2024047804号

Copyright 版权所有 © jvwen.com 聚文网