多模态大模型：算法、应用与微调--聚文网

精选

¥5.83

世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版

¥5.39

正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册

¥8.58

简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版

¥5.83

世界文学名著全49册中小学生青少年课外书籍文学小说批发正版

¥4.95

全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷

¥8.69

父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册

¥24.2

好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册

¥7.15

幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书

¥11.55

用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书

¥19.8

少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版

¥64

科学真好玩

¥12.7

一年级下4册·读读童谣和儿歌

¥38.4

原生态新生代(传统木版年画的当代传承国际研讨会论文集)

¥11.14

法国经典中篇小说

¥11.32

上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)

¥21.56

猫的摇篮(精)

¥30.72

幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书

旧时风物(精)

三希堂三帖/墨林珍赏

寒山子庞居士诗帖/墨林珍赏

苕溪帖/墨林珍赏

楷书王维诗卷/墨林珍赏

兰亭序/墨林珍赏

祭侄文稿/墨林珍赏

蜀素帖/墨林珍赏

真草千字文/墨林珍赏

进宴仪轨(精)/中国古代舞乐域外图书

舞蹈音乐的基础理论与应用

内容简介

本书详尽地覆盖了多模态大模型的算法原理和应用实战，提供了丰富的微调技术细节和实际案例，适合对多模态大模型有兴趣的技术人员深入学习及应用。本书分为两篇：算法原理篇详细介绍了先进的深度学习模型，包括Transformer、GPT系列、深度生成模型，从基本架构、训练方法到特定应用，包括但不限于Seq2Seq结构、位置编码、注意力机制、残差连接、变分自编码器、GAN、ViT、CLIP、Stable Diffusion、各模型训练实践的知识点。此外，探讨了预训练模型的涌现能力、模型参数和通信数据量的估算，以及分布式训练的各种技术，如数据并行、模型并行和混合精度训练等。应用实战篇聚焦于深度学习模型的实际应用，特别是文本和图像生成，以及代码生成的应用实战。通过具体实战项目，如利用Stable Diffusion进行图像生成和Code Llama进行代码生成，提供了微调技术的详细细节，介绍了LangChain等大模型应用框架。

作者简介

刘兆峰中国电信多模态算法工程师，基于多模态大模型提升长尾业务能力。天津科技大学人工智能专业硕士研究生。曾在京东科技担任算法工程师，从事京东白条申请评分卡开发。后加入创业公司，从事大规模预训练语言模型的分布式微调和AIGC相关衍生产品的系统开发，对LLM的训练和推理有深厚的理论基础和实战经验。现主要研究方向为多模态大模型与Agent以及AGI系统研究，聚焦于多模态大模型的行业场景落地。工作期间技术成果丰硕，发表多篇论文，有多个软件著作权。

目　　录前言第一篇　算法原理第1章　Transformer模型　2 1.1　Seq2Seq结构　2 1.1.1　分词器　2 1.1.2　编码器–解码器结构　6 1.1.3　注意力机制　9 1.1.4　实战：日期转换　13 1.2　Transformer模型介绍　18 1.2.1　位置编码　18 1.2.2　模型架构　24 1.2.3　标准化和残差连接　32 1.2.4　线性层和softmax层　36 1.2.5　损失函数　36 1.2.6　实战：日期转换　37 1.2.7　小结　45 1.3　ViT模型介绍　46 1.3.1　注意力机制在图像上的应用　47 1.3.2　ViT模型架构　48 1.3.3　大数据预训练　50 1.3.4　ViT模型训练实践　52 1.4　本章总结　54 第2章　GPT系列模型　55 2.1　GPT-1　55 2.1.1　语言模型　56 2.1.2　训练框架　56 2.1.3　模型效果分析　62 2.2　GPT-2　63 2.2.1　模型架构分析　64 2.2.2　构造训练数据集　65 2.2.3　模型效果分析　65 2.3　GPT-3　66 2.3.1　上下文学习　67 2.3.2　构造训练数据集　67 2.3.3　训练停止判定　69 2.3.4　重要潜力　69 2.4　GPT-3.5　70 2.4.1　代码生成模型Codex　71 2.4.2　强化学习　76 2.4.3　ChatGPT的“孪生兄弟”：InstructGPT　85 2.4.4　RLAIF　96 2.5　GPT-4　97 2.5.1　GPT-4的非凡表现　98 2.5.2　基于规则的奖励模型　99 2.5.3　多模态架构　101 2.5.4　训练流程　103 2.5.5　局限性　104 2.6　语言模型的未来　104 2.6.1　自我学习与自我核实　105 2.6.2　稀疏专家模型　106 2.7　GPT系列的其他应用　107 2.7.1　MiniGPT-4　107 2.7.2　minGPT与nanoGPT　108 2.7.3　AutoGPT与AgentGPT　109 2.8　本章总结　109 第3章　深度生成模型　111 3.1　从自编码器到变分自编码器　111 3.1.1　自编码器　111 3.1.2　变分自编码器　116 3.2　生成对抗网络　119 3.2.1　网络架构　119 3.2.2　算法描述　120 3.2.3　实战：手写数字图像生成　122 3.2.4　衍生应用　125 3.3　文本与图像的桥梁：CLIP　129 3.3.1　介绍　129 3.3.2　训练与推理　129 3.3.3　实战：图像文本匹配　132 3.3.4　CLIP的局限性　134 3.4　稳定扩散模型：Stable Diffusion　135 3.4.1　基本组件　135 3.4.2　扩散原理　136 3.4.3　数据集构建　139 3.4.4　流程梳理　141 3.4.5　实战：图像生成　144 3.4.6　Stable Diffusion升级　147 3.5　本章总结　148 第4章　预训练模型　150 4.1　大模型的涌现能力　151 4.1.1　缩放法则　151 4.1.2　涌现能力　152 4.2　模型参数量估算　153 4.3　通信数据量分析　155 4.3.1　点对点通信　156 4.3.2　集群通信　157 4.4　分布式训练　161 4.4.1　基本概念　161 4.4.2　数据并行　163 4.4.3　模型并行　171 4.4.4　混合并行　177 4.4.5　混合精度训练　178 4.5　DeepSpeed　180 4.5.1　ZeRO　181 4.5.2　ZeRO-Offload　185 4.5.3　ZeRO-Infinity　189 4.6　模型即服务平台　190 4.6.1　ModelScope　191 4.6.2　Hugging Face　192 4.7　本章总结　196 第二篇　应用实战第5章　文本生成应用实战：利用ChatPDF与文件对话　198 5.1　大模型的落地应用　198 5.1.1　外部增强：领域工具增强　200 5.1.2　提示词工程　201 5.1.3　模型微调　207 5.2　GLM系列模型　207 5.2.1　GLM与GLM-130B　209 5.2.2　ChatGLM、ChatGLM-6B 和ChatGLM2-6B　211 5.2.3　ChatGLM与ChatGPT的区别　212 5.3　参数高效微调　213 5.3.1　Adapter Tuning　213 5.3.2　Prompt Tuning　214 5.3.3　Prefix-Tuning　215 5.3.4　P-Tuning　218 5.3.5　P-Tuning v2　219 5.3.6　ChatGLM2-6B的 P-Tuning v2微调　220 5.4　大语言模型应用框架： LangChain　222 5.4.1　快速开始　223 5.4.2　基本概念　226 5.5　ChatGLM金融大模型挑战赛　232 5.5.1　任务目标　232 5.5.2　环境准备：SQLite　234 5.5.3　问题分析　235 5.5.4　NL2SQL　245 5.5.5　DocTree　261 5.5.6　集成　271 5.6　本章总结　275 第6章　文本生成算法实战：DeepSpeed-Chat　276 6.1　ZeRO++　276 6.1.1　权重量化　277 6.1.2　分层切片　278 6.1.3　梯度量化　278 6.1.4　ZeRO++与DeepSpeed-Chat结合　279 6.2　DeepSpeed-Chat快速开始　280 6.3　DeepSpeed-Chat的RLHF训练　281 6.3.1　数据收集与整理　282 6.3.2　有监督微调　284 6.3.3　奖励模型微调　287 6.3.4　RLHF微调　288 6.3.5　模型部署与测试　290 6.4　DeepSpeed混合引擎　290 6.5　本章总结　291 第7章　图像生成算法实战：Stable Diffusion微调　293 7.1　LoRA参数高效微调技术　293 7.1.1　奇异值分解　294 7.1.2　LoRA详解　295 7.2　用于Diffusers的LoRA微调　297 7.2.1　数据收集　297 7.2.2　训练参数配置　300 7.2.3　模型训练与测试　300 7.3　Stable Diffusion WebUI　302 7.3.1　安装　304 7.3.2　模型介绍　304 7.3.3　参数介绍　307 7.3.4　其他应用　310 7.4　可控扩散模型：ControlNet　313 7.4.1　原理介绍　314 7.4.2　安装插件并使用　316 7.5　本章总结　321 第8章　代码生成算法实战： Code Llama微调　322 8.1　任务介绍　322 8.1.1　代码生成模型的应用场景　323 8.1.2　相关模型介绍　327 8.1.3　常用代码数据集　331 8.2　Llama 2　336 8.2.1　模型介绍　336 8.2.2　预训练　336 8.2.3　有监督微调　337 8.2.4　奖励模型训练　338 8.2.5　迭代微调　339 8.2.6　多轮对话一致性　339 8.3　算法竞赛大语言模型　340 8.3.1　数据获取　340 8.3.2　数据清洗　348 8.3.3　text-dedup　351 8.3.4　模型训练　353 8.4　本章总结　358 第9章　综合应用实战：构建“漫画家”生成多模态漫画　360 9.1　应用介绍　361 9.1.1　需求分析　361 9.1.2　功能设计　363 9.2　功能实现选型　365 9.2.1　相关AI模型　365 9.2.2　后端技术栈　372 9.2.3　小结　377 9.3　相关模型部署　378 9.3.1　Stable Diffusion WebUI 部署　378 9.3.2　语音识别模型：Whisper　381 9.3.3　语音合成模型： Sambert-Hifigan　383 9.4　后端应用搭建　386 9.4.1　创建项目　387 9.4.2　配置应用　388 9.4.3　基本功能开发　390 9.5　本章总结　403

多模态大模型：算法、应用与微调

库存： {{selectedSku?.stock}} 库存充足