您好,欢迎来到聚文网。
登录
免费注册
网站首页
|
搜索
热搜:
磁力片
|
漫画
|
购物车
0
我的订单
商品分类
首页
幼儿
文学
社科
教辅
生活
销量榜
DeepSeek源码深度解析
字数: 650
出版社: 北京大学
作者: 薛栋,黄捷 著
商品条码: 9787301361580
适读年龄: 12+
版次: 1
开本: 16开
页数: 422
出版年份: 2025
印次: 1
定价:
¥119
销售价:
登录后查看价格
¥{{selectedSku?.salePrice}}
库存:
{{selectedSku?.stock}}
库存充足
{{item.title}}:
{{its.name}}
加入购物车
立即购买
加入书单
收藏
精选
¥5.83
世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版
¥5.39
正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册
¥8.58
简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版
¥5.83
世界文学名著全49册中小学生青少年课外书籍文学小说批发正版
¥4.95
全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷
¥8.69
父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册
¥24.2
好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册
¥7.15
幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书
¥11.55
用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书
¥19.8
少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版
¥64
科学真好玩
¥12.7
一年级下4册·读读童谣和儿歌
¥38.4
原生态新生代(传统木版年画的当代传承国际研讨会论文集)
¥11.14
法国经典中篇小说
¥11.32
上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)
¥21.56
猫的摇篮(精)
¥30.72
幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书
¥24.94
旧时风物(精)
¥12.04
三希堂三帖/墨林珍赏
¥6.88
寒山子庞居士诗帖/墨林珍赏
¥6.88
苕溪帖/墨林珍赏
¥6.88
楷书王维诗卷/墨林珍赏
¥9.46
兰亭序/墨林珍赏
¥7.74
祭侄文稿/墨林珍赏
¥7.74
蜀素帖/墨林珍赏
¥12.04
真草千字文/墨林珍赏
¥114.4
进宴仪轨(精)/中国古代舞乐域外图书
¥24.94
舞蹈音乐的基础理论与应用
内容简介
本书是一本系统讲解DeepSeek源码及其核心实现原理的技术指南,内容覆盖了从基础概念到高级应用的全流 程知识。全书共7章,结构层层递进。第1章对DeepSeek进行了全面概述,帮助读者构建对DeepSeek系统的整体认 知。第2章聚焦于环境搭建、代码获取与模型部署接入,为后续深入研究提供基础。第3章深入探讨了MoE(混合 专家模型)的基本原理、功能模块与优化技术。第4章详细解析了DeepSeek-V3模型的架构知识,并通过测试验证 展示了系统的实际效果。第5章围绕统一多模态大模型展开,介绍了Janus系列架构、核心技术及工具模块。第6章 针对高分辨率图像场景,探讨了结合MoE、细粒度特征提取与视觉/语言适配器的多模态模型的知识。第7章聚焦 DeepSeek-R1推理大模型,展示了DeepSeek在推理性能与自我进化方面的前沿探索。 本书适合人工智能工程师、深度学习研究者、AI产品开发人员及高校师生阅读。无论您是希望夯实开源模型基础, 还是寻找前沿实战案例,本书都将为您提供全面而深入的参考与指导。
作者简介
薛栋 ---------------------------- 薛栋,华东理工大学信息科学与技术学院副教授/硕士生导师,德国慕尼黑工业大学工学博士,“上海市高层次青年人才计划”、“浦江人才计划”获得者。先后在荷兰格罗宁根大学(RUG)、德国卡尔斯鲁厄理工大学(KIT)从事教师和研究员工作。长期从事基于人工智能与大数据相关研究,包括自然语言处理与大语言模型、工业互联网与工业软件、复杂网络与多智能体系统等课题。以第一作者或通讯作者在IEEE TAC、IEEE TSP、IEEE TNSE等国际高级期刊上发表SCI论文30余篇,主持和参与完成多项包括国家自然科学基金面上项目、上海市人才计划项目、企业科研攻关项目等在内的课题。主讲课程包括本科必修课《人工智能数学基础》和研究生课程《自主无人系统》以及《工业互联网关键技术》。 黄捷 ---------------------------- 黄捷:福州大学电气工程与自动化学院教授、博士生导师,福建省闽江学者奖励计划特聘教授、福建省高校杰出青年科研人才、福建省引进高层次人才、福州大学旗山学者、福建省闽江科学传播学者,研究方向涵盖多智能体系统协同控制与决策、工业互联网基础理论与关键技术等。现担任福建省自动化学会副会长、福州大学5G+工业互联网研究院院长等职务。
目录
第1章DeepSeek概述? 1.1 DeepSeek简介2 1.1.1 DeepSeek介绍2 1.1.2 DeepSeek的背景与目标2 1.1.3 DeepSeek的产品3 1.1.4 DeepSeek的应用场景5 1.1.5 DeepSeek的核心功能6 1.2 DeepSeek的架构概览7 1.2.1 DeepSeek的整体架构设计8 1.2.2 DeepSeek的模块划分8 1.2.3 DeepSeek与其他模型的技术对比9 第2章环境搭建、代码获取与模型部署接入 2.1 环境准备14 2.1.1 硬件环境要求14 2.1.2 软件环境配置15 2.2 源码获取与管理16 2.2.1 开源项目简介16 2.2.2 获取源码18 2.2.3 代码分支管理19 2.2.4 代码更新与同步20 2.3 DeepSeek模型的本地部署与接入21 2.3.1 安装Ollama 21 2.3.2 部署DeepSeek模型22 2.3.3 Chatbox部署可视化23 2.3.4 DeepSeek接入整合25 第3章混合专家模型(MoE)初探? 3.1 项目介绍28 3.1.1 基本特点28 3.1.2 开源内容29 3.2 功能模块303.3 ZeRO配置30 3.3.1 ZeRO优化器介绍30 3.3.2 第2阶段优化配置31 3.3.3 第3阶段优化配置32 3.3.4 优化总结34 3.4 模型微调34 3.4.1 微调原理34 3.4.2 生成提示文本35 3.4.3 配置模型微调参数36 3.4.4 设置训练数据37 3.4.5 配置超参数37 3.4.6 保存模型38 3.4.7 获取最新检查点39 3.4.8 安全保存模型39 3.4.9 分词处理40 3.4.10 文本预处理40 3.4.11 数据收集器41 3.4.12 训练数据的分词和预处理42 3.4.13 构建和配置模型42 3.4.14 训练模型44 3.4.15 微调模型47 3.5 调用模型48 3.5.1 下载模型48 3.5.2 调用模型50 第4章基于DeepSeekMoE架构的DeepSeek-V3 4.1 项目介绍54 4.1.1 核心特点54 4.1.2 训练流程54 4.1.3 与DeepSeekMoE项目的区别56 4.2 开源信息介绍57 4.3 模型权重58 4.3.1 权重结构58 4.3.2 加载规则59 4.3.3 FP8权重60 4.4 超参数配置61 4.4.1 小规模版本(16B)的配置61 4.4.2 中规模版本(236B)的配置63 4.4.3 大规模版本(671B)的配置64 4.5 模型架构64 4.5.1 DeepSeek-V3模型架构介绍65 4.5.2 配置信息66 4.5.3 并行嵌入68 4.5.4 线性变换69 4.5.5 线性层70 4.5.6 RMSNorm(均方根层归一化)73 4.5.7 RoPE计算74 4.5.8 多头注意力层77 4.5.9 多层感知器80 4.5.10 DeepSeek-V3中的MoE架构实现81 4.5.11 Transformer模型86 4.5.12 验证和测试88 4.6 量化计算88 4.6.1 输入张量进行量化处理89 4.6.2 块级量化处理89 4.6.3 权重矩阵的反量化90 4.6.4 对激活值和权重的量化与反量化91 4.6.5 调优参数92 4.6.6 FP8矩阵乘法内核92 4.6.7 FP8矩阵乘法实现94 4.7 权重转换95 4.7.1 权重格式转换95 4.7.2 权重精度转换98 4.7.3 不同硬件平台的转换101 4.8 测试模型102 4.8.1 模型加载与文本生成102 4.8.2 测试功能106 4.9 DeepSeek-V3模型总结108 第5章统一多模态大模型? 5.1 项目介绍112 5.2 架构原理与核心技术112 5.2.1 Janus架构113 5.2.2 Janus-Pro架构114 5.2.3 JanusFlow架构116 5.2.4 核心技术对比117 5.3 开源信息介绍118 5.4 工具模块119 5.4.1 对话管理120 5.4.2 数据加载129 5.5 构建多模态模型131 5.5.1 向量量化模型131 5.5.2 CLIP视觉编码器146 5.5.3 投影器148 5.5.4 Vision Transformer视觉模型150 5.5.5 图像处理器167 5.5.6 多模态因果语言模型171 5.5.7 多模态处理器177 5.6 JanusFlow模型架构185 5.6.1 多模态模型185 5.6.2 数据预处理189 5.6.3 U-ViT模型190 5.7 模型推理212 5.7.1 多模态推理测试212 5.7.2 文生图推理213 5.7.3 交互式文生图推理216 5.8 Web交互测试219 5.8.1 FastAPI测试219 5.8.2 Gradio交互222 第6章适用于高分辨率图像的多模态模型 6.1 项目介绍228 6.1.1 模型架构228 6.1.2 技术创新与亮点230 6.1.3 模型训练231 6.1.4 对比Janus项目232 6.2 开源模型233 6.3 开源信息介绍234 6.4 配置文件235 6.5 模型架构237 6.5.1 模型配置237 6.5.2 多模态模型架构242 6.5.3 数据处理259 6.5.4 DeepSeek模型架构276 6.5.5 Vision Transformer(ViT)的视觉模型328 6.5.6 对话模板和历史记录管理349 6.5.7 DeepSeek-VL2模型总结356 6.6 模型部署和在线服务359 6.6.1 设置部署参数359 6.6.2 工具函数362 6.6.3 Gradio工具373 6.6.4 模板覆盖与扩展376 6.6.5 Web前端378 6.6.6 模型推理380 6.7 图文对话推理384 6.8 Web测试387 6.8.1 Web前端实现387 6.8.2 启动Web测试402 第7章DeepSeek-R1推理大模型? 7.1 背景介绍406 7.2 项目介绍406 7.2.1 模型演进406 7.2.2 训练方案407 7.2.3 蒸馏小型模型408 7.2.4 开源信息介绍409 7.2.5 结论410 7.3 DeepSeek-R1-Zero训练方案411 7.3.1 强化学习算法411 7.3.2 奖励建模412 7.3.3 训练模板412 7.3.4 DeepSeek-R1-Zero的性能413 7.3.5 DeepSeek-R1-Zero的自我进化过程413 7.3.6 在DeepSeek-R1-Zero的“顿悟时刻”415 7.4 DeepSeek-R1训练方案416 7.4.1 冷启动416 7.4.2 推理导向的强化学习417 7.4.3 拒绝采样和监督微调417 7.4.4 全场景强化学习418 7.5 蒸馏处理419 7.5.1 基础模型的选择与蒸馏过程419 7.5.2 模型蒸馏的技术原理420
×
Close
添加到书单
加载中...
点此新建书单
×
Close
新建书单
标题:
简介:
蜀ICP备2024047804号
Copyright 版权所有 © jvwen.com 聚文网