您好,欢迎来到聚文网。
登录
免费注册
网站首页
|
搜索
热搜:
购物车
0
我的订单
商品分类
首页
幼儿
文学
社科
教辅
生活
销量榜
多模态深度学习技术基础
字数: 310
出版社: 清华大学
作者: 冯方向//王小捷|责编:张玥//常建丽
商品条码: 9787302637479
版次: 1
开本: 16开
页数: 241
出版年份: 2023
印次: 1
定价:
¥99
销售价:
登录后查看价格
¥{{selectedSku?.salePrice}}
库存:
{{selectedSku?.stock}}
库存充足
{{item.title}}:
{{its.name}}
加入购物车
立即购买
加入书单
收藏
精选
¥5.83
世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版
¥5.39
正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册
¥8.58
简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版
¥5.83
世界文学名著全49册中小学生青少年课外书籍文学小说批发正版
¥4.95
全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷
¥8.69
父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册
¥24.2
好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册
¥7.15
幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书
¥11.55
用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书
¥19.8
少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版
¥64
科学真好玩
¥12.7
一年级下4册·读读童谣和儿歌
¥38.4
原生态新生代(传统木版年画的当代传承国际研讨会论文集)
¥11.14
法国经典中篇小说
¥11.32
上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)
¥21.56
猫的摇篮(精)
¥30.72
幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书
¥24.94
旧时风物(精)
¥12.04
三希堂三帖/墨林珍赏
¥6.88
寒山子庞居士诗帖/墨林珍赏
¥6.88
苕溪帖/墨林珍赏
¥6.88
楷书王维诗卷/墨林珍赏
¥9.46
兰亭序/墨林珍赏
¥7.74
祭侄文稿/墨林珍赏
¥7.74
蜀素帖/墨林珍赏
¥12.04
真草千字文/墨林珍赏
¥114.4
进宴仪轨(精)/中国古代舞乐域外图书
¥24.94
舞蹈音乐的基础理论与应用
内容简介
深度学习技术的引入使 得多模态信息处理领域取得 了巨大的突破。本书在介绍 多模态信息处理的基础概念 和典型任务的基础上,重点 介绍最通用、最基础的基于 深度学习的多模态信息处理 技术。本书内容包括初识多 模态信息处理、单模态深度 学习表示技术、多模态深度 学习基础技术、多模态预训 练技术4部分:初识多模态 信息处理部分介绍多模态信 息处理的基础概念和典型任 务;单模态深度学习表示技 术部分介绍多模态深度学习 模型中常用的文本表示和图 像表示技术;多模态深度学 习基础技术部分介绍多模态 表示、对齐、融合和转换这 4种技术;多模态预训练技 术部分介绍多模态预训练技 术。此外,为了让读者更好 地理解理论的细节并实践这 些多模态深度学习技术,本 书提供了4个可运行的完整 的实战案例,分别对应多模 态表示、对齐、融合和转换 这4种技术。 本书既可作为多模态信 息处理、多模态深度学习等 相关课程的教学参考书,适 用于高等院校智能科学与技 术和人工智能等专业的本科 生、研究生,同时可供为对 多模态深度学习技术感兴趣 的工程师和研究人员参考。
作者简介
王小捷,北京航空航天大学博士。2002-2004年在日本奈良先端科学技术大学院计算语言学实验室访问研究。教授、博士生导师。研究方向为自然语言处理、认知计算。主持或参与完成国家自然科学基金项目、国家863计划项目等十余项国家级科研项目。
目录
第1章 绪论 1.1 多模态信息处理的概念 1.2 多模态信息处理的难点 1.3 使用深度学习技术的动机 1.4 多模态信息处理的基础技术 1.4.1 表示技术 1.4.2 对齐技术 1.4.3 融合技术 1.4.4 转换技术 1.5 多模态深度学习技术的发展历史 1.6 小结 1.7 习题 第2章 多模态任务 2.1 图文跨模态检索 2.1.1 数据集 2.1.2 评测指标 2.2 图像描述 2.2.1 数据集 2.2.2 评测指标 2.3 视觉问答 2.3.1 数据集 2.3.2 评测指标 2.4 文本生成图像 2.4.1 数据集 2.4.2 评测指标 2.5 指称表达 2.5.1 数据集 2.5.2 评测指标 2.6 小结 2.7 习题 第3章 文本表示 3.1 基于词嵌入的静态词表示 3.1.1 Word2vec 3.1.2 GloVe 3.2 基于循环神经网络的动态词表示 3.2.1 循环神经网络基础 3.2.2 现代循环神经网络 3.2.3 动态词表示和整体表示 3.3 基于注意力的预训练语言模型表示 3.3.1 自注意力 3.3.2 transformer编码器 3.3.3 BERT 3.3.4 BERT词表示和整体表示 3.4 小结 3.5 习题 第4章 图像表示 4.1 基于卷积神经网络的整体表示和网格表示 4.1.1 卷积神经网络基础 4.1.2 现代卷积神经网络 4.1.3 整体表示和网格表示 4.2 基于目标检测模型的区域表示 4.2.1 基于深度学习的目标检测基础 4.2.2 区域表示 4.3 基于视觉transformer的整体表示和块表示 4.3.1 使用自注意力代替卷积 4.3.2 视觉transformer 4.3.3 整体表示和块表示 4.4 基于自编码器的压缩表示 4.4.1 量化自编码器:VQ-VAE 4.4.2 量化生成对抗网络:VQGAN 4.4.3 变分生成对抗网络:KLGAN 4.4.4 压缩表示 4.5 小结 4.6 习题 第5章 多模态表示 5.1 共享表示 5.1.1 多模态深度自编码器 5.1.2 多模态深度生成模型 5.2 对应表示 5.2.1 基于重构损失的方法 5.2.2 基于排序损失的方法 5.2.3 基于对抗损失的方法 5.3 实战案例:基于对应表示的跨模态检索 5.3.1 跨模态检索技术简介 5.3.2 模型训练流程 5.3.3 读取数据 5.3.4 定义模型 5.3.5 定义损失函数 5.3.6 选择优化方法 5.3.7 评估指标 5.3.8 训练模型 5.4 小结 5.5 习题 第6章 多模态对齐 6.1 基于注意力的方法 6.1.1 交叉注意力 6.1.2 基于交叉注意力的图文对齐和相关性计算 6.2 基于图神经网络的方法 6.2.1 图神经网络基础 6.2.2 单模态表示提取 6.2.3 单模态图表示学习 6.2.4 多模态图对齐 6.3 实战案例:基于交叉注意力的跨模态检索 6.3.1 读取数据 6.3.2 定义模型 6.3.3 定义损失函数 6.3.4 选择优化方法 6.3.5 评估指标 6.3.6 训练模型 6.4 小结 6.5 习题 第7章 多模态融合 7.1 基于双线性融合的方法 7.1.1 多模态低秩双线性池化 7.1.2 多模态因子双线性池化 7.1.3 多模态Tucker融合 7.2 基于注意力的方法 7.2.1 基于交叉注意力的基础方法 7.2.2 基于多步交叉注意力的方法 7.2.3 基于交叉transformer编码器的方法 7.3 实战案例:基于MFB的视觉问答 7.3.1 视觉问答技术简介 7.3.2 读取数据 7.3.3 定义模型 7.3.4 定义损失函数 7.3.5 选择优化方法 7.3.6 选择评估指标 7.3.7 训练模型 7.4 小结 7.5 习题 第8章 多模态转换 8.1 基于编解码框架的方法 8.1.1 基于循环神经网络的编解码模型 8.1.2 基于注意力的编解码模型 8.1.3 基于transformer的编解码模型 8.2 基于生成对抗网络的方法 8.2.1 基于条件生成对抗网络的基本方法 8.2.2 基于多阶段生成网络的方法 8.2.3 基于注意力生成网络的方法 8.3 实战案例:基于注意力的图像描述 8.3.1 图像描述技术简介 8.3.2 读取数据 8.3.3 定义模型 8.3.4 定义损失函数 8.3.5 选择优化方法 8.3.6 选择评估指标 8.3.7 训练模型 8.4 小结 8.5 习题 第9章 多模态预训练 9.1 总体框架 9.2 预训练数据集 9.3 模型结构 9.3.1 基于编码器的模型 9.3.2 基于编解码框架的模型 9.4 预训练任务 9.4.1 掩码语言模型 9.4.2 掩码视觉模型 9.4.3 图像文本匹配 9.4.4 跨模态对比学习 9.5 下游任务 9.5.1 视觉常识推理 9.5.2 视觉语言推理 9.5.3 视觉蕴含 9.6 典型模型 9.6.1 基于融合编码器的双流模型:LXMERT 9.6.2 基于融合编码器的单流模型:V
×
Close
添加到书单
加载中...
点此新建书单
×
Close
新建书单
标题:
简介:
蜀ICP备2024047804号
Copyright 版权所有 © jvwen.com 聚文网