DeepSeek硬核技术解读--聚文网

精选

¥5.83

世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版

¥5.39

正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册

¥8.58

简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版

¥5.83

世界文学名著全49册中小学生青少年课外书籍文学小说批发正版

¥4.95

全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷

¥8.69

父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册

¥24.2

好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册

¥7.15

幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书

¥11.55

用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书

¥19.8

少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版

¥64

科学真好玩

¥12.7

一年级下4册·读读童谣和儿歌

¥38.4

原生态新生代(传统木版年画的当代传承国际研讨会论文集)

¥11.14

法国经典中篇小说

¥11.32

上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)

¥22.05

猫的摇篮(精)

¥30.72

幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书

旧时风物(精)

三希堂三帖/墨林珍赏

寒山子庞居士诗帖/墨林珍赏

苕溪帖/墨林珍赏

楷书王维诗卷/墨林珍赏

兰亭序/墨林珍赏

祭侄文稿/墨林珍赏

蜀素帖/墨林珍赏

真草千字文/墨林珍赏

进宴仪轨(精)/中国古代舞乐域外图书

舞蹈音乐的基础理论与应用

内容简介

内容简介 这是一本系统剖析DeepSeek系列大模型技术体系与实践路径的专著。本书立足于作者在大模型研发一线的深厚积累，结合深度学习、强化学习、分布式系统与模型优化等多领域知识，全面阐述 DeepSeek在模型架构、训练推理、基础设施及数据工程等方面的核心突破与工程实践。全书兼具理论严谨性与实践指导性，旨在帮助AI研究者、工程师和技术决策者深入理解当代大模型的关键技术，掌握高效、低成本构建和部署先进AI系统的方法。 本书分为两部分。 第一部分　DeepSeek学习前置知识（第1~5章）?? 从DeepSeek的模型概述和重要突破切入，系统介绍经典Transformer架构、强化学习基础、大语言模型中的RLHF和量化技术，以及分布式训练的基础知识，为读者奠定坚实的理论和技术基础。 第二部分　DeepSeek核心技术（第6~11章）?? 首先，深入解析DeepSeek的模型架构创新，包括 MoE、MLA与分词器设计，探讨跨模态对齐、负载均衡、基础设施优化及数据处理等关键议题，揭示其在高性能、低资源消耗背后的系统级工程实现。 然后，聚焦DeepSeek V3、VL2及开源推理模型的训练逻辑、推理及优化，涵盖训练策略、超参数设计、数据构建以及Prefill、Decode等推理阶段的深度优化，为构建高效、可扩展的AI系统提供完整方法论和实战参考。 本书不仅透彻解读技术报告，更重视将前沿理论与工业实践相结合，帮助读者理解AI系统构建的本质规律与发展趋势，为学术界和工业界提供了一条清晰、可复现的高效能人工智能研发路径。

作者简介

作者简介 刘丹 大模型算法专家，面壁智能开源社区前技术负责人。先后在科大讯飞、面壁智能、国防科技大学等企业和高校担任算法专家和技术负责人。精通模型架构、模型训练、效率优化、前沿AI技术落地。热衷于技术布道，开源的技术报告浏览量超过30万人次，在GitHub上开源的项目获得了超过30k的星标（Star）。拥有丰富的军工级、重大企业级项目经验，多个重大项目进入央视直播。 尹俊希 大模型领域资深专家，在AI领域有多年的从业经验，在学术界和工业界均有广泛的影响力。曾任Facebook高级工程师及OPPO北美人工智能研究院研究员。精通算法设计、模型架构、模型训练及强化学习等前沿技术，尤其专注于大模型的技术探索与产业应用，近年来在该方向取得多项重要成果。

前　言 第一部分　DeepSeek学习前置知识 第1章　认识DeepSeek3　 1.1　DeepSeek的模型介绍4 1.2　DeepSeek的重要突破5 1.2.1　为开源做贡献5 1.2.2　性能大幅提升7 1.2.3　成本显著降低9 1.2.4　算法创新10 1.3　DeepSeek系列模型与其他大模型的 介绍13 1.3.1　DeepSeek系列模型13 1.3.2　国外知名大模型14 1.3.3　国内知名大模型18第2章　经典Transformer架构23　 2.1　Transformer架构的特点23 2.2　Transformer的基本原理25 2.2.1　分词器26 2.2.2　词嵌入层26 2.2.3　位置编码模块27 2.2.4　自注意力模块30 2.2.5　多头注意力模块34 2.2.6　前馈神经网络模块36 2.2.7　残差连接和层归一化模块38 2.2.8　Encoder-Decoder架构44 2.3　Transformer架构下的计算 复杂度50 2.3.1　矩阵乘法的计算复杂度50 2.3.2　Transfomer架构下的计算量 推导51 2.4　Decoder模式下的推理与训练55 2.4.1　Mask矩阵详解55 2.4.2　具体训练和推理57 2.5　绝对位置编码与相对位置编码62 2.5.1　绝对位置编码62 2.5.2　相对位置编码63 2.5.3　绝对位置编码与相对位置 编码的对比65 第3章　强化学习基础67　 3.1　基础概念68 3.2　大语言模型中的RLHF69 3.2.1　PPO69 3.2.2　DPO74 3.3　GRPO76 3.4　大语言模型中的强化学习训练 数据格式78 第4章　大语言模型量化85　 4.1　大语言模型精度基础知识85 4.2　量化基础知识88 4.2.1　线性量化88 4.2.2　非线性量化88 4.2.3　对称量化89 4.2.4　非对称量化89 4.2.5　量化感知训练90 4.2.6　训练后量化90 4.2.7　反量化91 4.3　分组量化92 4.3.1　分组量化的优点92 4.3.2　分组量化的分组方式93 4.4　影响量化后模型精度与速度的 因素96 4.5　常见的量化算法98 4.5.1　LLM.INT898 4.5.2　AWQ102 4.5.3　GPTQ105 第5章　大语言模型分布式训练 基础知识108　 5.1　通信原语108 5.1.1　Reduce109 5.1.2　Broadcast109 5.1.3　Gather110 5.1.4　Scatter111 5.1.5　All-Reduce112 5.1.6　All-Gather113 5.2　数据并行113 5.3　张量并行116 5.3.1　张量并行——行并行116 5.3.2　张量并行——列并行117 5.3.3　行并行与列并行的差别118 5.4　流水线并行120 5.5　序列并行121 5.6　“专家”并行122第二部分　DeepSeek核心技术 第6章　DeepSeek的模型架构128　 6.1　MoE架构129 6.1.1　MoE的基本原理129 6.1.2　MoE架构下计算量下降的 分析137 6.2　MLA架构139 6.2.1　MHA140 6.2.2　GQA142 6.2.3　MLA145 6.3　分词器设计149 6.3.1　BPE149 6.3.2　BBPE154 6.3.3　分词器对模型性能的 影响158 6.4　DeepSeek VL2模型的原理159 6.4.1　什么是跨模态对齐160 6.4.2　DeepSeek VL2模型对高清 图像的处理160 第7章　MoE架构负载均衡技术 详解163 7.1　负载均衡的意义与挑战163 7.1.1　卡间负载均衡163 7.1.2　节点间负载均衡165 7.1.3　MoE架构的“专家”负载 均衡168 7.2　DeepSeek V3的负载均衡171 7.2.1　全局无损失负载均衡171 7.2.2　序列间负载均衡172 7.2.3　节点与卡间的通信负载 均衡175 7.3　DeepSeek V2的负载均衡176 7.3.1　设备级负载均衡176 7.3.2　“专家”级负载均衡176 7.3.3　通信负载均衡177 第8章　DeepSeek V3在基础 设施层的优化178　 8.1　混合精度训练178 8.1.1　为什么要进行混合精度 训练178 8.1.2　传统的混合精度训练 框架179 8.1.3　DeepSeek V3的混合精度 训练181 8.2　Dualpipe183 8.3　分块量化计算188 8.3.1　Tensor Core的FP8数值 溢出188 8.3.2　DeepSeek V3的分块量化 计算原理190 第9章　数据处理与质量提升196　 9.1　预训练数据工程196 9.1.1　预训练数据的一般处理 流程196 9.1.2　数据去重的常见算法197 9.1.3　数据质量保障198 9.1.4　预训练数据的格式198 9.1.5　DeepSeek预训练数据的 处理199 9.2　SFT数据的构建与处理201 9.2.1　SFT数据的一般格式和 内容201 9.2.2　基于教师模型的数据 蒸馏202 9.2.3　构建SFT数据的一般 原则203 9.3　RLHF数据进化203 9.3.1　RLHF的基本作用与 流程203 9.3.2　RLHF数据的格式与 构建204 9.4　DeepSeek Math的数据处理205 9.4.1　初始数据准备205 9.4.2　数据预处理与召回206 9.4.3　迭代优化206 9.4.4　基准污染过滤206 9.4.5　关键结果与收敛判断207 9.4.6　SFT数据构建207 第10章　DeepSeek的训练逻辑209　 10.1　DeepSeek V3的训练逻辑209 10.1.1　FIM209 10.1.2　MTP210 10.1.3　超参数设计218 10.1.4　SFT数据构建218 10.1.5　强化学习220 10.2　DeepSeek开源推理模型的训练 逻辑222 10.2.1　推理模型的主要特点222 10.2.2　DeepSeek R1的构造 逻辑223 10.2.3　DeepSeek R1的奖励和 奖励模型224 10.2.4　Open-R1中的奖励225 10.2.5　DeepSeek R1-Zero为什么 跳过SFT231 10.2.6　DeepSeek R1为什么需要 进行少量Long-cot数据的 监督微调232 10.3　DeepSeek VL2的训练逻辑232 10.3.1　初始阶段：视觉-语言 对齐232 10.3.2　预训练阶段：多模态联合 学习233 10.3.3　微调阶段：指令跟踪和 对话能力增强233 第11章　DeepSeek的推理及优化235　 11.1　DeepSeek推理阶段的报告 原文235 11.2　推理阶段的综合解读239 11.3　Prefill阶段的推理设计 及优化240 11.4　Decode阶段的推理设计 及优化241

DeepSeek硬核技术解读

库存： {{selectedSku?.stock}} 库存充足

上架到店铺