您好,欢迎来到聚文网。 登录 免费注册
DeepSeek硬核技术解读

DeepSeek硬核技术解读

  • 字数: 310
  • 出版社: 机械工业
  • 作者: 刘丹//尹俊希//杨院伶|
  • 商品条码: 9787111792284
  • 适读年龄: 12+
  • 版次: 1
  • 开本: 16开
  • 页数: 242
  • 出版年份: 2025
  • 印次: 1
定价:¥99 销售价:登录后查看价格  ¥{{selectedSku?.salePrice}} 
库存: {{selectedSku?.stock}} 库存充足
{{item.title}}:
{{its.name}}
精选
内容简介
内容简介<br />这是一本系统剖析DeepSeek系列大模型技术体系与实践路径的专著。本书立足于作者在大模型研发一线的深厚积累,结合深度学习、强化学习、分布式系统与模型优化等多领域知识,全面阐述 DeepSeek在模型架构、训练推理、基础设施及数据工程等方面的核心突破与工程实践。全书兼具理论严谨性与实践指导性,旨在帮助AI研究者、工程师和技术决策者深入理解当代大模型的关键技术,掌握高效、低成本构建和部署先进AI系统的方法。<br />本书分为两部分。<br />第一部分 DeepSeek学习前置知识(第1~5章)??<br />从DeepSeek的模型概述和重要突破切入,系统介绍经典Transformer架构、强化学习基础、大语言模型中的RLHF和量化技术,以及分布式训练的基础知识,为读者奠定坚实的理论和技术基础。<br />第二部分 DeepSeek核心技术(第6~11章)??<br />首先,深入解析DeepSeek的模型架构创新,包括 MoE、MLA与分词器设计,探讨跨模态对齐、负载均衡、基础设施优化及数据处理等关键议题,揭示其在高性能、低资源消耗背后的系统级工程实现。<br />然后,聚焦DeepSeek V3、VL2及开源推理模型的训练逻辑、推理及优化,涵盖训练策略、超参数设计、数据构建以及Prefill、Decode等推理阶段的深度优化,为构建高效、可扩展的AI系统提供完整方法论和实战参考。<br />本书不仅透彻解读技术报告,更重视将前沿理论与工业实践相结合,帮助读者理解AI系统构建的本质规律与发展趋势,为学术界和工业界提供了一条清晰、可复现的高效能人工智能研发路径。
作者简介
作者简介<br />刘丹<br />大模型算法专家,面壁智能开源社区前技术负责人。先后在科大讯飞、面壁智能、国防科技大学等企业和高校担任算法专家和技术负责人。精通模型架构、模型训练、效率优化、前沿AI技术落地。热衷于技术布道,开源的技术报告浏览量超过30万人次,在GitHub上开源的项目获得了超过30k的星标(Star)。拥有丰富的军工级、重大企业级项目经验,多个重大项目进入央视直播。<br />尹俊希<br />大模型领域资深专家,在AI领域有多年的从业经验,在学术界和工业界均有广泛的影响力。曾任Facebook高级工程师及OPPO北美人工智能研究院研究员。精通算法设计、模型架构、模型训练及强化学习等前沿技术,尤其专注于大模型的技术探索与产业应用,近年来在该方向取得多项重要成果。
目录
前 言<br />第一部分 DeepSeek学习前置知识<br />第1章 认识DeepSeek3 <br />1.1 DeepSeek的模型介绍4<br />1.2 DeepSeek的重要突破5<br />1.2.1 为开源做贡献5<br />1.2.2 性能大幅提升7<br />1.2.3 成本显著降低9<br />1.2.4 算法创新10<br />1.3 DeepSeek系列模型与其他大模型的<br />介绍13<br />1.3.1 DeepSeek系列模型13<br />1.3.2 国外知名大模型14<br />1.3.3 国内知名大模型18第2章 经典Transformer架构23 <br />2.1 Transformer架构的特点23<br />2.2 Transformer的基本原理25<br />2.2.1 分词器26<br />2.2.2 词嵌入层26<br />2.2.3 位置编码模块27<br />2.2.4 自注意力模块30<br />2.2.5 多头注意力模块34<br />2.2.6 前馈神经网络模块36<br />2.2.7 残差连接和层归一化模块38<br />2.2.8 Encoder-Decoder架构44<br />2.3 Transformer架构下的计算<br />复杂度50<br />2.3.1 矩阵乘法的计算复杂度50<br />2.3.2 Transfomer架构下的计算量<br />推导51<br />2.4 Decoder模式下的推理与训练55<br />2.4.1 Mask矩阵详解55<br />2.4.2 具体训练和推理57<br />2.5 绝对位置编码与相对位置编码62<br />2.5.1 绝对位置编码62<br />2.5.2 相对位置编码63<br />2.5.3 绝对位置编码与相对位置<br />编码的对比65<br />第3章 强化学习基础67 <br />3.1 基础概念68<br />3.2 大语言模型中的RLHF69<br />3.2.1 PPO69<br />3.2.2 DPO74<br />3.3 GRPO76<br />3.4 大语言模型中的强化学习训练<br />数据格式78<br />第4章 大语言模型量化85 <br />4.1 大语言模型精度基础知识85<br />4.2 量化基础知识88<br />4.2.1 线性量化88<br />4.2.2 非线性量化88<br />4.2.3 对称量化89<br />4.2.4 非对称量化89<br />4.2.5 量化感知训练90<br />4.2.6 训练后量化90<br />4.2.7 反量化91<br />4.3 分组量化92<br />4.3.1 分组量化的优点92<br />4.3.2 分组量化的分组方式93<br />4.4 影响量化后模型精度与速度的<br />因素96<br />4.5 常见的量化算法98<br />4.5.1 LLM.INT898<br />4.5.2 AWQ102<br />4.5.3 GPTQ105<br />第5章 大语言模型分布式训练<br />基础知识108 <br />5.1 通信原语108<br />5.1.1 Reduce109<br />5.1.2 Broadcast109<br />5.1.3 Gather110<br />5.1.4 Scatter111<br />5.1.5 All-Reduce112<br />5.1.6 All-Gather113<br />5.2 数据并行113<br />5.3 张量并行116<br />5.3.1 张量并行——行并行116<br />5.3.2 张量并行——列并行117<br />5.3.3 行并行与列并行的差别118<br />5.4 流水线并行120<br />5.5 序列并行121<br />5.6 “专家”并行122第二部分 DeepSeek核心技术<br />第6章 DeepSeek的模型架构128 <br />6.1 MoE架构129<br />6.1.1 MoE的基本原理129<br />6.1.2 MoE架构下计算量下降的<br />分析137<br />6.2 MLA架构139<br />6.2.1 MHA140<br />6.2.2 GQA142<br />6.2.3 MLA145<br />6.3 分词器设计149<br />6.3.1 BPE149<br />6.3.2 BBPE154<br />6.3.3 分词器对模型性能的<br />影响158<br />6.4 DeepSeek VL2模型的原理159<br />6.4.1 什么是跨模态对齐160<br />6.4.2 DeepSeek VL2模型对高清<br />图像的处理160<br />第7章 MoE架构负载均衡技术<br />详解163<br />7.1 负载均衡的意义与挑战163<br />7.1.1 卡间负载均衡163<br />7.1.2 节点间负载均衡165<br />7.1.3 MoE架构的“专家”负载<br />均衡168<br />7.2 DeepSeek V3的负载均衡171<br />7.2.1 全局无损失负载均衡171<br />7.2.2 序列间负载均衡172<br />7.2.3 节点与卡间的通信负载<br />均衡175<br />7.3 DeepSeek V2的负载均衡176<br />7.3.1 设备级负载均衡176<br />7.3.2 “专家”级负载均衡176<br />7.3.3 通信负载均衡177<br />第8章 DeepSeek V3在基础<br />设施层的优化178 <br />8.1 混合精度训练178<br />8.1.1 为什么要进行混合精度<br />训练178<br />8.1.2 传统的混合精度训练<br />框架179<br />8.1.3 DeepSeek V3的混合精度<br />训练181<br />8.2 Dualpipe183<br />8.3 分块量化计算188<br />8.3.1 Tensor Core的FP8数值<br />溢出188<br />8.3.2 DeepSeek V3的分块量化<br />计算原理190<br />第9章 数据处理与质量提升196 <br />9.1 预训练数据工程196<br />9.1.1 预训练数据的一般处理<br />流程196<br />9.1.2 数据去重的常见算法197<br />9.1.3 数据质量保障198<br />9.1.4 预训练数据的格式198<br />9.1.5 DeepSeek预训练数据的<br />处理199<br />9.2 SFT数据的构建与处理201<br />9.2.1 SFT数据的一般格式和<br />内容201<br />9.2.2 基于教师模型的数据<br />蒸馏202<br />9.2.3 构建SFT数据的一般<br />原则203<br />9.3 RLHF数据进化203<br />9.3.1 RLHF的基本作用与<br />流程203<br />9.3.2 RLHF数据的格式与<br />构建204<br />9.4 DeepSeek Math的数据处理205<br />9.4.1 初始数据准备205<br />9.4.2 数据预处理与召回206<br />9.4.3 迭代优化206<br />9.4.4 基准污染过滤206<br />9.4.5 关键结果与收敛判断207<br />9.4.6 SFT数据构建207<br />第10章 DeepSeek的训练逻辑209 <br />10.1 DeepSeek V3的训练逻辑209<br />10.1.1 FIM209<br />10.1.2 MTP210<br />10.1.3 超参数设计218<br />10.1.4 SFT数据构建218<br />10.1.5 强化学习220<br />10.2 DeepSeek开源推理模型的训练<br />逻辑222<br />10.2.1 推理模型的主要特点222<br />10.2.2 DeepSeek R1的构造<br />逻辑223<br />10.2.3 DeepSeek R1的奖励和<br />奖励模型224<br />10.2.4 Open-R1中的奖励225<br />10.2.5 DeepSeek R1-Zero为什么<br />跳过SFT231<br />10.2.6 DeepSeek R1为什么需要<br />进行少量Long-cot数据的<br />监督微调232<br />10.3 DeepSeek VL2的训练逻辑232<br />10.3.1 初始阶段:视觉-语言<br />对齐232<br />10.3.2 预训练阶段:多模态联合<br />学习233<br />10.3.3 微调阶段:指令跟踪和<br />对话能力增强233<br />第11章 DeepSeek的推理及优化235 <br />11.1 DeepSeek推理阶段的报告<br />原文235<br />11.2 推理阶段的综合解读239<br />11.3 Prefill阶段的推理设计<br />及优化240<br />11.4 Decode阶段的推理设计<br />及优化241

蜀ICP备2024047804号

Copyright 版权所有 © jvwen.com 聚文网