您好,欢迎来到聚文网。 登录 免费注册
DeepSeek核心技术揭秘

DeepSeek核心技术揭秘

  • 字数: 210
  • 出版社: 电子工业
  • 作者: 卢菁
  • 商品条码: 9787121501241
  • 适读年龄: 12+
  • 版次: 1
  • 开本: 16开
  • 页数: 154
  • 出版年份: 2025
  • 印次: 1
定价:¥79 销售价:登录后查看价格  ¥{{selectedSku?.salePrice}} 
库存: {{selectedSku?.stock}} 库存充足
{{item.title}}:
{{its.name}}
精选
内容简介
《DeepSeek核心技术揭秘》深入剖析DeepSeek的核心技术,介绍了提示词的原理与高级应用,对DeepSeek的模型架构、训练框架,以及MoE优化、MLA、思维链、GRPO算法、奖励模型等技术细节进行了探讨。此外,本书对DeepSeek给人工智能行业格局带来的影响及DeepSeek的开源贡献进行了分析,对大模型的发展趋势进行了展望。 《DeepSeek核心技术揭秘》适合人工智能研究人员、开发人员及大模型相关技术爱好者阅读,也为关注人工智能领域技术发展的从业人员提供了参考与借鉴。
作者简介
卢菁,北京科技大学博士,北京大学博士后,B站、视频号优秀科技博主。曾任职于腾讯、爱奇艺等知名互联网公司,主要从事人工智能技术的应用和研发工作,主要研究方向为大模型、多模态、自然语言处理、知识图谱、推荐系统等。著有《速通机器学习》《速通深度学习数学基础》。 戴志仕,资深AI架构师,“寒武纪人工智能”公众号的创立者。2024年CCF国际AIOps挑战赛优秀奖获得者。拥有十余年人工智能算法研究和产业落地经验,成功实施过多个人工智能项目。
目录
第1章 技惊四座的DeepSeek / 1 1.1 石破天惊的产品发布 / 1 1.2 DeepSeek-V3和DeepSeek-R1可以做什么 / 4 1.3 DeepSeek-V3的技术突破与创新 / 7 1.3.1 架构创新 / 8 1.3.2 训练优化 / 9 1.3.3 推理与部署优化 / 10 1.3.4 效果的全面提升 / 10 1.4 DeepSeek-R系列的技术突破与创新 / 10 1.4.1 DeepSeek-R1-Zero的技术突破与创新 / 11 1.4.2 DeepSeek-R1的技术突破与创新 / 12 1.4.3 推理能力的提升 / 12 1.5 DeepSeek发布的模型家族 / 14 1.5.1 通用语言大模型 / 16 1.5.2 多模态大模型 / 17 1.5.3 代码大模型 / 18 1.5.4 数学推理大模型 / 18 1.5.5 混合专家模型 / 19 1.5.6 MoE专用微调模型 / 19 1.5.7 基于LLaMA架构的模型 / 20 第2章 提示词的原理与应用 / 21 2.1 推理模型与通用模型 / 21 2.2 提示工程 / 29 2.2.1 提示词的类型 / 30 2.2.2 提示词的基本元素 / 33 2.2.3 有效的提示词 / 37 2.2.4 正确地表达需求 / 38 2.3 提示词高级技巧:提示词链 / 39 2.3.1 提示词链的设计过程 / 39 2.3.2 提示词链的应用案例 / 40 第3章 DeepSeek-V3技术剖析 / 43 3.1 DeepSeek的模型架构 / 43 3.1.1 MoE的起源与发展 / 44 3.1.2 DeepSeek-V3的MoE优化 / 50 3.1.3 DeepSeek-V3的MoE架构的优势 / 54 3.1.4 DeepSeek-V3的MLA / 54 3.1.5 DeepSeek-V3的MTP / 59 3.2 DeepSeek的训练框架 / 62 3.2.1 常见的并行策略 / 62 3.2.2 DeepSeek的并行策略 / 67 3.2.3 DeepSeek的FP8混合精度训练 / 73 3.3 DeepSeek的推理阶段优化 / 77 3.3.1 PD分离架构 / 77 3.3.2 DeepSeek的预填充阶段优化 / 78 3.3.3 DeepSeek的解码阶段优化 / 79 3.4 DeepSeek的后训练优化 / 80 3.5 小结 / 80 第4章 DeepSeek-R1技术剖析 / 82 4.1 预备知识 / 82 4.1.1 思维链 / 82 4.1.2 有监督微调 / 83 4.1.3 强化学习 / 84 4.2 DeepSeek对训练推理模型的探索 / 88 4.3 DeepSeek-R1-Zero的训练 / 89 4.3.1 GRPO算法 / 92 4.3.2 奖励模型 / 95 4.4 DeepSeek-R1的训练 / 96 4.4.1 阶段一训练 / 97 4.4.2 阶段二训练 / 98 4.4.3 推理能力的蒸馏 / 100 4.5 小结 / 101 第5章 DeepSeek的影响与成功启示 / 103 5.1 DeepSeek对AI格局的影响 / 103 5.1.1 打破硬件依赖的迷思 / 103 5.1.2 对英伟达CUDA护城河的冲击 / 104 5.1.3 对大模型技术路线的重新思考 / 104 5.1.4 投资风向的改变 / 105 5.1.5 对商业模式的冲击 / 105 5.1.6 对创新文化的冲击 / 106 5.1.7 对地缘政治的冲击 / 106 5.2 DeepSeek的成功启示 / 106 5.2.1 领导者的技术直觉 / 107 5.2.2 长期主义 / 107 5.2.3 极致的工程优化 / 107 5.2.4 对资源的高效利用 / 108 5.2.5 团队的创新文化 / 108 第6章 DeepSeek开源技术剖析 / 109 6.1 DeepSeek的“开源周” / 109 6.2 FlashMLA:减少显存消耗 / 110 6.2.1 项目特点 / 111 6.2.2 应用场景 / 112 6.2.3 技术剖析 / 113 6.2.4 影响与展望 / 114 6.3 DeepEP:通信系统的优化 / 115 6.3.1 项目特点 / 115 6.3.2 应用场景 / 116 6.3.3 技术剖析 / 117 6.3.4 影响与展望 / 119 6.4 DeepGEMM:让矩阵乘法起飞 / 120 6.4.1 项目特点 / 121 6.4.2 应用场景 / 123 6.4.3 技术剖析 / 124 6.4.4 影响与展望 / 126 6.5 DualPipe与EPLB:集群并行计算优化 / 127 6.5.1 项目特点 / 128 6.5.2 技术剖析 / 130 6.5.3 影响与展望 / 133 6.6 3FS:为AI加速 / 134 6.6.1 项目特点 / 134 6.6.2 应用场景 / 136 6.6.3 技术剖析 / 137 6.6.4 影响与展望 / 139 第7章 大模型未来发展展望 / 142 7.1 MoE的未来 / 142 7.1.1 专家数量与规模的优化 / 142 7.1.2 MoE分布式训练工具进一步完善 / 142 7.1.3 门控算法的改进 / 143 7.1.4 跨领域应用与融合 / 143 7.2 MLA的未来 / 143 7.3 大模型训练方法的发展趋势 / 144 7.3.1 三阶段训练法的普及 / 144 7.3.2 混合精度训练的推广 / 144 7.3.3 并行策略的优化 / 144 7.4 推理部署的发展趋势 / 145 7.4.1 PD分离模式的普及 / 145 7.4.2 集群化推理的优化与推理加速技术研究 / 145 7.5 GPU硬件的未来发展 / 145 7.5.1 软硬件协同升级 / 145 7.5.2 存储与通信能力的优化 / 146 7.5.3 低精度计算的支持 / 146 7.5.4 异构计算的支持 / 146 7.6 从LLaMA 4看推理模型的发展 / 147 7.6.1 LLaMA 4简介 / 147 7.6.2 LLaMA 4的核心技术细节 / 149

蜀ICP备2024047804号

Copyright 版权所有 © jvwen.com 聚文网