DeepSeek核心技术揭秘--聚文网

精选

¥5.83

世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版

¥5.39

正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册

¥8.58

简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版

¥5.83

世界文学名著全49册中小学生青少年课外书籍文学小说批发正版

¥4.95

全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷

¥8.69

父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册

¥24.2

好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册

¥7.15

幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书

¥11.55

用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书

¥19.8

少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版

¥64

科学真好玩

¥12.7

一年级下4册·读读童谣和儿歌

¥38.4

原生态新生代(传统木版年画的当代传承国际研讨会论文集)

¥11.14

法国经典中篇小说

¥11.32

上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)

¥22.05

猫的摇篮(精)

¥30.72

幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书

旧时风物(精)

三希堂三帖/墨林珍赏

寒山子庞居士诗帖/墨林珍赏

苕溪帖/墨林珍赏

楷书王维诗卷/墨林珍赏

兰亭序/墨林珍赏

祭侄文稿/墨林珍赏

蜀素帖/墨林珍赏

真草千字文/墨林珍赏

进宴仪轨(精)/中国古代舞乐域外图书

舞蹈音乐的基础理论与应用

内容简介

《DeepSeek核心技术揭秘》深入剖析DeepSeek的核心技术，介绍了提示词的原理与高级应用，对DeepSeek的模型架构、训练框架，以及MoE优化、MLA、思维链、GRPO算法、奖励模型等技术细节进行了探讨。此外，本书对DeepSeek给人工智能行业格局带来的影响及DeepSeek的开源贡献进行了分析，对大模型的发展趋势进行了展望。《DeepSeek核心技术揭秘》适合人工智能研究人员、开发人员及大模型相关技术爱好者阅读，也为关注人工智能领域技术发展的从业人员提供了参考与借鉴。

作者简介

卢菁，北京科技大学博士，北京大学博士后，B站、视频号优秀科技博主。曾任职于腾讯、爱奇艺等知名互联网公司，主要从事人工智能技术的应用和研发工作，主要研究方向为大模型、多模态、自然语言处理、知识图谱、推荐系统等。著有《速通机器学习》《速通深度学习数学基础》。戴志仕，资深AI架构师，“寒武纪人工智能”公众号的创立者。2024年CCF国际AIOps挑战赛优秀奖获得者。拥有十余年人工智能算法研究和产业落地经验，成功实施过多个人工智能项目。

第1章技惊四座的DeepSeek / 1 1.1　石破天惊的产品发布 / 1 1.2　DeepSeek-V3和DeepSeek-R1可以做什么 / 4 1.3　DeepSeek-V3的技术突破与创新 / 7 1.3.1　架构创新 / 8 1.3.2　训练优化 / 9 1.3.3　推理与部署优化 / 10 1.3.4　效果的全面提升 / 10 1.4　DeepSeek-R系列的技术突破与创新 / 10 1.4.1　DeepSeek-R1-Zero的技术突破与创新 / 11 1.4.2　DeepSeek-R1的技术突破与创新 / 12 1.4.3　推理能力的提升 / 12 1.5　DeepSeek发布的模型家族 / 14 1.5.1　通用语言大模型 / 16 1.5.2　多模态大模型 / 17 1.5.3　代码大模型 / 18 1.5.4　数学推理大模型 / 18 1.5.5　混合专家模型 / 19 1.5.6　MoE专用微调模型 / 19 1.5.7　基于LLaMA架构的模型 / 20 第2章　提示词的原理与应用 / 21 2.1　推理模型与通用模型 / 21 2.2　提示工程 / 29 2.2.1　提示词的类型 / 30 2.2.2　提示词的基本元素 / 33 2.2.3　有效的提示词 / 37 2.2.4　正确地表达需求 / 38 2.3　提示词高级技巧：提示词链 / 39 2.3.1　提示词链的设计过程 / 39 2.3.2　提示词链的应用案例 / 40 第3章　DeepSeek-V3技术剖析 / 43 3.1　DeepSeek的模型架构 / 43 3.1.1　MoE的起源与发展 / 44 3.1.2　DeepSeek-V3的MoE优化 / 50 3.1.3　DeepSeek-V3的MoE架构的优势 / 54 3.1.4　DeepSeek-V3的MLA / 54 3.1.5　DeepSeek-V3的MTP / 59 3.2　DeepSeek的训练框架 / 62 3.2.1　常见的并行策略 / 62 3.2.2　DeepSeek的并行策略 / 67 3.2.3　DeepSeek的FP8混合精度训练 / 73 3.3　DeepSeek的推理阶段优化 / 77 3.3.1　PD分离架构 / 77 3.3.2　DeepSeek的预填充阶段优化 / 78 3.3.3　DeepSeek的解码阶段优化 / 79 3.4　DeepSeek的后训练优化 / 80 3.5　小结 / 80 第4章　DeepSeek-R1技术剖析 / 82 4.1　预备知识 / 82 4.1.1　思维链 / 82 4.1.2　有监督微调 / 83 4.1.3　强化学习 / 84 4.2　DeepSeek对训练推理模型的探索 / 88 4.3　DeepSeek-R1-Zero的训练 / 89 4.3.1　GRPO算法 / 92 4.3.2　奖励模型 / 95 4.4　DeepSeek-R1的训练 / 96 4.4.1　阶段一训练 / 97 4.4.2　阶段二训练 / 98 4.4.3　推理能力的蒸馏 / 100 4.5　小结 / 101 第5章　DeepSeek的影响与成功启示 / 103 5.1　DeepSeek对AI格局的影响 / 103 5.1.1　打破硬件依赖的迷思 / 103 5.1.2　对英伟达CUDA护城河的冲击 / 104 5.1.3　对大模型技术路线的重新思考 / 104 5.1.4　投资风向的改变 / 105 5.1.5　对商业模式的冲击 / 105 5.1.6　对创新文化的冲击 / 106 5.1.7　对地缘政治的冲击 / 106 5.2　DeepSeek的成功启示 / 106 5.2.1　领导者的技术直觉 / 107 5.2.2　长期主义 / 107 5.2.3　极致的工程优化 / 107 5.2.4　对资源的高效利用 / 108 5.2.5　团队的创新文化 / 108 第6章　DeepSeek开源技术剖析 / 109 6.1　DeepSeek的“开源周” / 109 6.2　FlashMLA：减少显存消耗 / 110 6.2.1　项目特点 / 111 6.2.2　应用场景 / 112 6.2.3　技术剖析 / 113 6.2.4　影响与展望 / 114 6.3　DeepEP：通信系统的优化 / 115 6.3.1　项目特点 / 115 6.3.2　应用场景 / 116 6.3.3　技术剖析 / 117 6.3.4　影响与展望 / 119 6.4　DeepGEMM：让矩阵乘法起飞 / 120 6.4.1　项目特点 / 121 6.4.2　应用场景 / 123 6.4.3　技术剖析 / 124 6.4.4　影响与展望 / 126 6.5　DualPipe与EPLB：集群并行计算优化 / 127 6.5.1　项目特点 / 128 6.5.2　技术剖析 / 130 6.5.3　影响与展望 / 133 6.6　3FS：为AI加速 / 134 6.6.1　项目特点 / 134 6.6.2　应用场景 / 136 6.6.3　技术剖析 / 137 6.6.4　影响与展望 / 139 第7章　大模型未来发展展望 / 142 7.1　MoE的未来 / 142 7.1.1　专家数量与规模的优化 / 142 7.1.2　MoE分布式训练工具进一步完善 / 142 7.1.3　门控算法的改进 / 143 7.1.4　跨领域应用与融合 / 143 7.2　MLA的未来 / 143 7.3　大模型训练方法的发展趋势 / 144 7.3.1　三阶段训练法的普及 / 144 7.3.2　混合精度训练的推广 / 144 7.3.3　并行策略的优化 / 144 7.4　推理部署的发展趋势 / 145 7.4.1　PD分离模式的普及 / 145 7.4.2　集群化推理的优化与推理加速技术研究 / 145 7.5　GPU硬件的未来发展 / 145 7.5.1　软硬件协同升级 / 145 7.5.2　存储与通信能力的优化 / 146 7.5.3　低精度计算的支持 / 146 7.5.4　异构计算的支持 / 146 7.6　从LLaMA 4看推理模型的发展 / 147 7.6.1　LLaMA 4简介 / 147 7.6.2　LLaMA 4的核心技术细节 / 149

DeepSeek核心技术揭秘

库存： {{selectedSku?.stock}} 库存充足