您好,欢迎来到聚文网。
登录
免费注册
网站首页
|
联系客服
|
搜索
热搜:
购物车
0
我的订单
商品分类
首页
幼儿
文学
社科
教辅
生活
销量榜
DeepSeek硬核技术解读
字数: 310
出版社: 机械工业
作者: 刘丹//尹俊希//杨院伶|
商品条码: 9787111792284
适读年龄: 12+
版次: 1
开本: 16开
页数: 242
出版年份: 2025
印次: 1
定价:
¥99
销售价:
登录后查看价格
¥{{selectedSku?.salePrice}}
库存:
{{selectedSku?.stock}}
库存充足
{{item.title}}:
{{its.name}}
加入购物车
立即购买
收藏
上架到店铺
×
Close
上架到店铺
{{shop.name}}
点此去绑定店铺
精选
¥5.83
世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版
¥5.39
正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册
¥8.58
简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版
¥5.83
世界文学名著全49册中小学生青少年课外书籍文学小说批发正版
¥4.95
全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷
¥8.69
父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册
¥24.2
好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册
¥7.15
幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书
¥11.55
用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书
¥19.8
少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版
¥64
科学真好玩
¥12.7
一年级下4册·读读童谣和儿歌
¥38.4
原生态新生代(传统木版年画的当代传承国际研讨会论文集)
¥11.14
法国经典中篇小说
¥11.32
上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)
¥22.05
猫的摇篮(精)
¥30.72
幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书
¥24.94
旧时风物(精)
¥12.04
三希堂三帖/墨林珍赏
¥6.88
寒山子庞居士诗帖/墨林珍赏
¥6.88
苕溪帖/墨林珍赏
¥6.88
楷书王维诗卷/墨林珍赏
¥9.46
兰亭序/墨林珍赏
¥7.74
祭侄文稿/墨林珍赏
¥7.74
蜀素帖/墨林珍赏
¥12.04
真草千字文/墨林珍赏
¥114.4
进宴仪轨(精)/中国古代舞乐域外图书
¥24.94
舞蹈音乐的基础理论与应用
内容简介
内容简介<br />这是一本系统剖析DeepSeek系列大模型技术体系与实践路径的专著。本书立足于作者在大模型研发一线的深厚积累,结合深度学习、强化学习、分布式系统与模型优化等多领域知识,全面阐述 DeepSeek在模型架构、训练推理、基础设施及数据工程等方面的核心突破与工程实践。全书兼具理论严谨性与实践指导性,旨在帮助AI研究者、工程师和技术决策者深入理解当代大模型的关键技术,掌握高效、低成本构建和部署先进AI系统的方法。<br />本书分为两部分。<br />第一部分 DeepSeek学习前置知识(第1~5章)??<br />从DeepSeek的模型概述和重要突破切入,系统介绍经典Transformer架构、强化学习基础、大语言模型中的RLHF和量化技术,以及分布式训练的基础知识,为读者奠定坚实的理论和技术基础。<br />第二部分 DeepSeek核心技术(第6~11章)??<br />首先,深入解析DeepSeek的模型架构创新,包括 MoE、MLA与分词器设计,探讨跨模态对齐、负载均衡、基础设施优化及数据处理等关键议题,揭示其在高性能、低资源消耗背后的系统级工程实现。<br />然后,聚焦DeepSeek V3、VL2及开源推理模型的训练逻辑、推理及优化,涵盖训练策略、超参数设计、数据构建以及Prefill、Decode等推理阶段的深度优化,为构建高效、可扩展的AI系统提供完整方法论和实战参考。<br />本书不仅透彻解读技术报告,更重视将前沿理论与工业实践相结合,帮助读者理解AI系统构建的本质规律与发展趋势,为学术界和工业界提供了一条清晰、可复现的高效能人工智能研发路径。
作者简介
作者简介<br />刘丹<br />大模型算法专家,面壁智能开源社区前技术负责人。先后在科大讯飞、面壁智能、国防科技大学等企业和高校担任算法专家和技术负责人。精通模型架构、模型训练、效率优化、前沿AI技术落地。热衷于技术布道,开源的技术报告浏览量超过30万人次,在GitHub上开源的项目获得了超过30k的星标(Star)。拥有丰富的军工级、重大企业级项目经验,多个重大项目进入央视直播。<br />尹俊希<br />大模型领域资深专家,在AI领域有多年的从业经验,在学术界和工业界均有广泛的影响力。曾任Facebook高级工程师及OPPO北美人工智能研究院研究员。精通算法设计、模型架构、模型训练及强化学习等前沿技术,尤其专注于大模型的技术探索与产业应用,近年来在该方向取得多项重要成果。
目录
前 言<br />第一部分 DeepSeek学习前置知识<br />第1章 认识DeepSeek3 <br />1.1 DeepSeek的模型介绍4<br />1.2 DeepSeek的重要突破5<br />1.2.1 为开源做贡献5<br />1.2.2 性能大幅提升7<br />1.2.3 成本显著降低9<br />1.2.4 算法创新10<br />1.3 DeepSeek系列模型与其他大模型的<br />介绍13<br />1.3.1 DeepSeek系列模型13<br />1.3.2 国外知名大模型14<br />1.3.3 国内知名大模型18第2章 经典Transformer架构23 <br />2.1 Transformer架构的特点23<br />2.2 Transformer的基本原理25<br />2.2.1 分词器26<br />2.2.2 词嵌入层26<br />2.2.3 位置编码模块27<br />2.2.4 自注意力模块30<br />2.2.5 多头注意力模块34<br />2.2.6 前馈神经网络模块36<br />2.2.7 残差连接和层归一化模块38<br />2.2.8 Encoder-Decoder架构44<br />2.3 Transformer架构下的计算<br />复杂度50<br />2.3.1 矩阵乘法的计算复杂度50<br />2.3.2 Transfomer架构下的计算量<br />推导51<br />2.4 Decoder模式下的推理与训练55<br />2.4.1 Mask矩阵详解55<br />2.4.2 具体训练和推理57<br />2.5 绝对位置编码与相对位置编码62<br />2.5.1 绝对位置编码62<br />2.5.2 相对位置编码63<br />2.5.3 绝对位置编码与相对位置<br />编码的对比65<br />第3章 强化学习基础67 <br />3.1 基础概念68<br />3.2 大语言模型中的RLHF69<br />3.2.1 PPO69<br />3.2.2 DPO74<br />3.3 GRPO76<br />3.4 大语言模型中的强化学习训练<br />数据格式78<br />第4章 大语言模型量化85 <br />4.1 大语言模型精度基础知识85<br />4.2 量化基础知识88<br />4.2.1 线性量化88<br />4.2.2 非线性量化88<br />4.2.3 对称量化89<br />4.2.4 非对称量化89<br />4.2.5 量化感知训练90<br />4.2.6 训练后量化90<br />4.2.7 反量化91<br />4.3 分组量化92<br />4.3.1 分组量化的优点92<br />4.3.2 分组量化的分组方式93<br />4.4 影响量化后模型精度与速度的<br />因素96<br />4.5 常见的量化算法98<br />4.5.1 LLM.INT898<br />4.5.2 AWQ102<br />4.5.3 GPTQ105<br />第5章 大语言模型分布式训练<br />基础知识108 <br />5.1 通信原语108<br />5.1.1 Reduce109<br />5.1.2 Broadcast109<br />5.1.3 Gather110<br />5.1.4 Scatter111<br />5.1.5 All-Reduce112<br />5.1.6 All-Gather113<br />5.2 数据并行113<br />5.3 张量并行116<br />5.3.1 张量并行——行并行116<br />5.3.2 张量并行——列并行117<br />5.3.3 行并行与列并行的差别118<br />5.4 流水线并行120<br />5.5 序列并行121<br />5.6 “专家”并行122第二部分 DeepSeek核心技术<br />第6章 DeepSeek的模型架构128 <br />6.1 MoE架构129<br />6.1.1 MoE的基本原理129<br />6.1.2 MoE架构下计算量下降的<br />分析137<br />6.2 MLA架构139<br />6.2.1 MHA140<br />6.2.2 GQA142<br />6.2.3 MLA145<br />6.3 分词器设计149<br />6.3.1 BPE149<br />6.3.2 BBPE154<br />6.3.3 分词器对模型性能的<br />影响158<br />6.4 DeepSeek VL2模型的原理159<br />6.4.1 什么是跨模态对齐160<br />6.4.2 DeepSeek VL2模型对高清<br />图像的处理160<br />第7章 MoE架构负载均衡技术<br />详解163<br />7.1 负载均衡的意义与挑战163<br />7.1.1 卡间负载均衡163<br />7.1.2 节点间负载均衡165<br />7.1.3 MoE架构的“专家”负载<br />均衡168<br />7.2 DeepSeek V3的负载均衡171<br />7.2.1 全局无损失负载均衡171<br />7.2.2 序列间负载均衡172<br />7.2.3 节点与卡间的通信负载<br />均衡175<br />7.3 DeepSeek V2的负载均衡176<br />7.3.1 设备级负载均衡176<br />7.3.2 “专家”级负载均衡176<br />7.3.3 通信负载均衡177<br />第8章 DeepSeek V3在基础<br />设施层的优化178 <br />8.1 混合精度训练178<br />8.1.1 为什么要进行混合精度<br />训练178<br />8.1.2 传统的混合精度训练<br />框架179<br />8.1.3 DeepSeek V3的混合精度<br />训练181<br />8.2 Dualpipe183<br />8.3 分块量化计算188<br />8.3.1 Tensor Core的FP8数值<br />溢出188<br />8.3.2 DeepSeek V3的分块量化<br />计算原理190<br />第9章 数据处理与质量提升196 <br />9.1 预训练数据工程196<br />9.1.1 预训练数据的一般处理<br />流程196<br />9.1.2 数据去重的常见算法197<br />9.1.3 数据质量保障198<br />9.1.4 预训练数据的格式198<br />9.1.5 DeepSeek预训练数据的<br />处理199<br />9.2 SFT数据的构建与处理201<br />9.2.1 SFT数据的一般格式和<br />内容201<br />9.2.2 基于教师模型的数据<br />蒸馏202<br />9.2.3 构建SFT数据的一般<br />原则203<br />9.3 RLHF数据进化203<br />9.3.1 RLHF的基本作用与<br />流程203<br />9.3.2 RLHF数据的格式与<br />构建204<br />9.4 DeepSeek Math的数据处理205<br />9.4.1 初始数据准备205<br />9.4.2 数据预处理与召回206<br />9.4.3 迭代优化206<br />9.4.4 基准污染过滤206<br />9.4.5 关键结果与收敛判断207<br />9.4.6 SFT数据构建207<br />第10章 DeepSeek的训练逻辑209 <br />10.1 DeepSeek V3的训练逻辑209<br />10.1.1 FIM209<br />10.1.2 MTP210<br />10.1.3 超参数设计218<br />10.1.4 SFT数据构建218<br />10.1.5 强化学习220<br />10.2 DeepSeek开源推理模型的训练<br />逻辑222<br />10.2.1 推理模型的主要特点222<br />10.2.2 DeepSeek R1的构造<br />逻辑223<br />10.2.3 DeepSeek R1的奖励和<br />奖励模型224<br />10.2.4 Open-R1中的奖励225<br />10.2.5 DeepSeek R1-Zero为什么<br />跳过SFT231<br />10.2.6 DeepSeek R1为什么需要<br />进行少量Long-cot数据的<br />监督微调232<br />10.3 DeepSeek VL2的训练逻辑232<br />10.3.1 初始阶段:视觉-语言<br />对齐232<br />10.3.2 预训练阶段:多模态联合<br />学习233<br />10.3.3 微调阶段:指令跟踪和<br />对话能力增强233<br />第11章 DeepSeek的推理及优化235 <br />11.1 DeepSeek推理阶段的报告<br />原文235<br />11.2 推理阶段的综合解读239<br />11.3 Prefill阶段的推理设计<br />及优化240<br />11.4 Decode阶段的推理设计<br />及优化241
×
Close
添加到书单
加载中...
点此新建书单
×
Close
新建书单
标题:
简介:
蜀ICP备2024047804号
Copyright 版权所有 © jvwen.com 聚文网