您好,欢迎来到聚文网。 登录 免费注册
分布式机器学习模式

分布式机器学习模式

  • 字数: 261
  • 出版社: 清华大学
  • 作者: 唐源|译者:梁豪
  • 商品条码: 9787302672265
  • 版次: 1
  • 开本: 32开
  • 页数: 216
  • 出版年份: 2024
  • 印次: 1
定价:¥69.8 销售价:登录后查看价格  ¥{{selectedSku?.salePrice}} 
库存: {{selectedSku?.stock}} 库存充足
{{item.title}}:
{{its.name}}
精选
内容简介
在现代分布式系统上部 署机器学习应用时,我们逐 渐将关注焦点转向了可靠性 、性能、安全性以及解决这 些问题所带来的运维挑战。 在这本深入指南中,Argo和 Kubeflow的项目负责人 Yuan Tang分享了将机器学 习模型从单机环境迁移到复 杂的分布式集群中的模式、 示例和所积累的宝贵经验。 《分布式机器学习模式 》将详细介绍数十种设计和 部署分布式机器学习系统的 技术。你将使用各种模式解 决如下问题:如何进行分布 式模型训练、如何应对突发 的系统故障,以及如何部署 动态的模型服务。本书为每 种模式都配备了实际的案例 分析,以及基于Kubernetes 实现分布式模型训练和弹性 推理的完整项目。
作者简介
唐源,目前在芝加哥的Uptake公司带领团队建立用于多个物联网领域的数据科学引擎进行条件和健康监控,也建立了公司的预测模型引擎,现在被用于航空、能源等大型机械领域。一直活跃在开源软件社区,是TensorFlow和DMLC的成员,是TensorFlow、XGBoost、MXNet等软件的committer,TF.Learn、ggfortify等软件的作者,以及caret、pandas等软件的贡献者。曾获得谷歌Open Source Peer Bonus,以及多项高校和企业编程竞赛的奖项。在美国宾州州立大学获得荣誉数学学位,曾在本科学习期间成为创业公司DataNovo的核心创始成员,研究专利数据挖掘、无关键字现有技术搜索、策略推荐等。
目录
第Ⅰ部分 基本概念和背景 第1章 了解开发环境 1.1 大规模机器学习 1.1.1 不断扩大的规模 1.1.2 解决方案 1.2 分布式系统 1.2.1 分布式系统基本概念 1.2.2 复杂性和模式 1.3 分布式机器学习系统 1.3.1 分布式机器学习系统基本概念 1.3.2 类似的模式 1.3.3 分布式机器学习系统的应用场景 1.3.4 不适合使用分布式机器学习系统的场景 1.4 本书涵盖的内容 1.5 本章小结 第Ⅱ部分 分布式机器学习系统模式 第2章 数据摄取模式 2.1 数据摄取的基本概念 2.2 Fashion-MNIST数据集 2.3 批处理模式 2.3.1 问题:在内存有限的情况下对Fashion-MNIST数据集执行耗费资源的操作 2.3.2 解决方案 2.3.3 讨论 2.3.4 练习 2.4 分片模式:在多台机器之间分割极大的数据集 2.4.1 问题 2.4.2 解决方案 2.4.3 讨论 2.4.4 练习 2.5 缓存模式 2.5.1 问题:重新访问之前使用过的数据以进行高效的多轮模型训练 2.5.2 解决方案 2.5.3 讨论 2.5.4 练习 2.6 习题答案 2.7 本章小结 第3章 分布式训练模式 3.1 分布式训练的基本概念 3.2 参数服务器模式:800万样本的实体标记 3.2.1 问题 3.2.2 解决方案 3.2.3 讨论 3.2.4 练习 3.3 集合通信模式 3.3.1 问题:当参数服务器成为瓶颈时提高性能 3.3.2 解决方案 3.3.3 讨论 3.3.4 练习 3.4 弹性与容错模式 3.4.1 问题:使用有限的计算资源处理训练时的意外故障 3.4.2 解决方案 3.4.3 讨论 3.4.4 练习 3.5 习题答案 3.6 本章小结 第4章 模型服务模式 4.1 模型服务的基本概念 4.2 副本服务模式:处理不断增长的服务请求 4.2.1 问题 4.2.2 解决方案 4.2.3 讨论 4.2.4 练习 4.3 分片服务模式 4.3.1 问题:处理包含高分辨率视频的大型模型服务请求 4.3.2 解决方案 4.3.3 讨论 4.3.4 练习 4.4 事件驱动处理模式 4.4.1 问题:基于事件响应模型服务请求 4.4.2 解决方案 4.4.3 讨论 4.4.4 练习 4.5 习题答案 4.6 本章小结 第5章 工作流模式 5.1 工作流的基本概念 5.2 扇入和扇出模式:组成复杂的机器学习工作流 5.2.1 问题 5.2.2 解决方案 5.2.3 讨论 5.2.4 练习 5.3 同步和异步模式:通过并发加速工作流 5.3.1 问题 5.3.2 解决方案 5.3.3 讨论 5.3.4 练习 5.4 步骤记忆化模式:通过使用缓存跳过重复冗余的步骤 5.4.1 问题 5.4.2 解决方案 5.4.3 讨论 5.4.4 练习 5.5 习题答案 5.6 本章小结 第6章 运维模式 6.1 机器学习系统中运维的基本概念 6.2 调度模式:在共享集群中有效分配资源 6.2.1 问题 6.2.2 解决方案 6.2.3 讨论 6.2.4 练习 6.3 元数据模式:合理处理故障,最小化对用户的负面影响 6.3.1 问题 6.3.2 解决方案 6.3.3 讨论 6.3.4 练习 6.4 习题答案 6.5 本章小结 第Ⅲ部分 构建分布式机器学习工作流 第7章 项目概述及系统架构 7.1 项目概况 7.1.1 项目背景 7.1.2 系统组件 7.2 数据摄取 7.2.1 问题 7.2.2 解决方案 7.2.3 练习 7.3 模型训练 7.3.1 问题 7.3.2 解决方案 7.3.3 练习 7.4 模型服务 7.4.1 问题 7.4.2 解决方案 7.4.3 练习 7.5 端到端工作流 7.5.1 存在的问题 7.5.2 解决方案 7.5.3 练习 7.6 习题答案 7.7 本章小结 第8章 相关技术概述 8.1 TensorFlow:机器学习框架 8.1.1 基础知识 8.1.2 练习 8.2 Kubermetes:分布式容器编排系统 8.2.1 基础知识 8.2.2 练习 8.3 Kubeflow:在Kubernetes上运行机器学习工作负载 8.3.1 基础知识 8.3.2 练习 8.4 Argo Workflows:容器原生工作流引擎 8.4.1 基础知识 8.4.2 练习 8.5 习题答案 8.6 本章小结 第9章 完整实现 9.1 数据摄取 9.1.1 单节点数据流水线 9.1.2 分布式数据流水线 9.2 模型训练 9.2.1 模型定义和单节点训练 9.2.2 分布式模型训练 9.2.3 模型选择 9.3 模型服务 9

蜀ICP备2024047804号

Copyright 版权所有 © jvwen.com 聚文网