您好,欢迎来到聚文网。
登录
免费注册
网站首页
|
搜索
热搜:
磁力片
|
漫画
|
购物车
0
我的订单
商品分类
首页
幼儿
文学
社科
教辅
生活
销量榜
语音识别基本法 Kaldi实践与探索
字数: 307000
装帧: 平装
出版社: 电子工业出版社
作者: 汤志远 等
出版日期: 2021-02-01
商品条码: 9787121404788
版次: 1
开本: 16开
页数: 256
出版年份: 2021
定价:
¥89
销售价:
登录后查看价格
¥{{selectedSku?.salePrice}}
库存:
{{selectedSku?.stock}}
库存充足
{{item.title}}:
{{its.name}}
加入购物车
立即购买
加入书单
收藏
精选
¥5.83
世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版
¥5.39
正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册
¥8.58
简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版
¥5.83
世界文学名著全49册中小学生青少年课外书籍文学小说批发正版
¥4.95
全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷
¥8.69
父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册
¥24.2
好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册
¥7.15
幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书
¥11.55
用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书
¥19.8
少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版
¥64
科学真好玩
¥12.7
一年级下4册·读读童谣和儿歌
¥38.4
原生态新生代(传统木版年画的当代传承国际研讨会论文集)
¥11.14
法国经典中篇小说
¥11.32
上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)
¥21.56
猫的摇篮(精)
¥30.72
幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书
¥24.94
旧时风物(精)
¥12.04
三希堂三帖/墨林珍赏
¥6.88
寒山子庞居士诗帖/墨林珍赏
¥6.88
苕溪帖/墨林珍赏
¥6.88
楷书王维诗卷/墨林珍赏
¥9.46
兰亭序/墨林珍赏
¥7.74
祭侄文稿/墨林珍赏
¥7.74
蜀素帖/墨林珍赏
¥12.04
真草千字文/墨林珍赏
¥114.4
进宴仪轨(精)/中国古代舞乐域外图书
¥24.94
舞蹈音乐的基础理论与应用
编辑推荐
"语音技术全景图速览,覆盖常规语音任务,包括语音识别、说话人识别、语种识别、情绪识别、语音合成; 语音识别全方位讲解,包括基本概念和流程,以及应用中的各种实际问题; 基于流行的语音工具,结合直观理解与动手实践,适合快速入门与进阶。"
内容简介
语音是新一代人机交互的方式,语音识别是实现这一方式的关键环节,也是实现人工智能的基本步骤之一。本书结合当下使用广泛的Kaldi工具,对语音识别的基本概念和流程进行了详细的讲解,包括GMM-HMM、DNN-HMM、端到端等常用结构,并探讨了语音识别在实际应用中的问题,包括说话人自适应、噪声对抗与环境鲁棒性、小语种语音识别、关键词识别与嵌入式应用等方面,也对语音技术的相关前沿课题进行了介绍,包括说话人识别、语种识别、情绪识别、语音合成等方向。本书的写作以让读者快速、直观地理解概念为目标,只展示最基本的数学公式,同时本书注重理解与实践相结合,在对语音技术各个概念的讲解中都展示了相应的Kaldi语音处理命令,以便让读者进一步融会贯通。本书适用于语音识别及相关技术的初学者、在校学生,以及基于Kaldi进行产品研发的同仁,也可以作为语音从业者的参考书籍。
作者简介
"汤志远,中国科学院大学与清华大学联合培养博士,清华博士后。专注于语音技术,研究领域涉及语音识别、声纹识别、语种识别、口语测评等,在国际重要期刊或会议上累计发表论文数十篇。个人主页:http://tangzy.cslt.org。 李蓝天,清华大学博士、博士后,专注于机器学习在语音信号处理中的方法研究,研究领域涉及说话人识别、语音识别、音频事件检测、语种识别、情感识别等,现已在国际期刊或会议上发表学术论文50余篇。个人主页:http://lilt.cslt.org。 王东,清华大学副研究员,清华大学语音和语言技术中心副主任,英国爱丁堡大学博士,历任Oracle中国软件工程师、IBM中国高级软件工程师、英国爱丁堡大学Marie Curie研究员、法国EURECOM博士后研究员、美国Nuance公司高级研究科学家,在语音领域国际重要期刊或会议上发表论文150余篇,是IEEE高级会员,APSIPA(亚太信号与信息处理协会)SLA(服务等级协议)主席。个人主页:http://wangd.cslt.org。 石颖,哈尔滨工业大学在读博士,曾任清华大学语音和语言技术中心语音算法工程师,专注于语音相关技术,研究领域涉及语音识别、小语种语音识别、命令词识别、语音增强。个人主页:http://shiying.cslt.org。 蔡云麒,中国科学院物理研究所与美国橡树岭国家实验室联合培养博士研究生,清华大学博士后,目前研究方向为语音领域的机器学习算法研究。在国际期刊和会议上发表论文十多篇。个人主页:http://caiyq.cslt.org。 郑方,清华大学研究员、博士生导师,清华大学语音和语言技术中心主任,清华大学人工智能研究院听觉智能研究中心主任,北京信息科学与技术国家研究中心智能科学部常务副主任,得意音通公司创始人。个人主页:http://cslt.riit.tsinghua.edu.cn/~fzheng。"
目录
1语音是什么2
1.1大音希声2
1.2产生语音4
1.3看见语音5
1.4小结8
2语音识别方法9
2.1总体思路10
2.2声学模型GMM-HMM12
2.2.1HMM12
2.2.2GMM14
2.2.3训练15
2.3声学模型DNN-HMM16
2.4语言模型18
2.4.1N-Gram18
2.4.2RNN语言模型18
2.5解码器20
2.6端到端结构22
2.6.1CTC23
2.6.2RNN-T26
2.6.3Attention27
2.6.4Self-Attention29
2.6.5CTC+Attension31
2.7开源工具和硬件平台32
2.7.1深度学习平台32
2.7.2语音识别工具33
2.7.3硬件加速34
2.8小结36
3完整的语音识别实验37
3.1语音识别实验的步骤38
3.2语音识别实验的运行46
3.3其他语音任务案例47
3.4小结47
4前端处理48
4.1数据准备48
4.2声学特征提取52
4.2.1预加重(Pre-Emphasis)54
4.2.2加窗(Windowing)54
4.2.3离散傅里叶变换(DFT)55
4.2.4FBank特征56
4.2.5MFCC特征57
4.3小结58
5训练与解码59
5.1GMM-HMM基本流程60
5.1.1训练60
5.1.2解码61
5.1.3强制对齐62
5.2DNN-HMM基本流程63
5.3DNN配置详解64
5.3.1component和component-node65
5.3.2属性与描述符66
5.3.3不同组件的使用方法66
5.3.4LSTM配置范例76
5.4小结81
6说话人自适应84
6.1什么是说话人自适应84
6.2特征域自适应与声道长度规整85
6.3声学模型自适应:HMM-GMM系统87
6.3.1基于MAP的自适应方法88
6.3.2基于MLLR的自适应方法91
6.4声学模型自适应:DNN系统93
6.4.1模型参数自适应学习93
6.4.2基于说话人向量的条件学习94
6.5领域自适应95
6.6小结95
7噪声对抗与环境鲁棒性97
7.1环境鲁棒性简介97
7.2前端信号处理方法98
7.2.1语音增强方法99
7.2.2特征域补偿方法103
7.2.3基于DNN的特征映射106
7.3后端模型增强方法108
7.3.1简单模型增强方法108
7.3.2模型自适应方法109
7.3.3多场景学习和数据增强方法109
7.4小结110
8小语种语音识别111
8.1小语种语音识别面临的主要困难112
8.2基于音素共享的小语种语音识别113
8.3基于参数共享的小语种语音识别方法118
8.4其他小语种语音识别方法121
8.4.1Grapheme建模121
8.4.2网络结构与训练方法121
8.4.3数据增强122
8.5小语种语音识别实践122
8.5.1音频数据采集122
8.5.2文本数据采集122
8.5.3文本正规化123
8.5.4发音词典设计123
8.6小结123
9关键词识别与嵌入式应用125
9.1基本概念125
9.2评价指标126
9.3实现方法129
9.3.1总体框架129
9.3.2基于LVCSR的KWS系统130
9.3.3基于示例的KWS132
9.3.4端到端KWS133
9.3.5滑动窗口133
9.4嵌入式应用134
9.4.1模型压缩134
9.4.2迁移学习136
9.4.3网络结构搜索与设计137
9.5小结137
10说话人识别140
10.1什么是说话人识别140
10.1.1基本概念140
10.1.2技术难点143
10.1.3发展历史143
10.2基于知识驱动的特征设计144
10.3基于线性高斯的统计模型147
10.3.1高斯混合模型-通用背景模型147
10.3.2因子分析150
10.4基于数据驱动的特征学习154
10.4.1模型结构156
10.4.2训练策略157
10.4.3多任务学习157
10.5基于端到端的识别模型158
10.6小结160
11语种识别161
11.1什么是语种识别161
11.2语言的区分性特征163
11.3统计模型方法165
11.3.1基于声学特征的识别方法165
11.3.2基于发音单元的语种识别方法167
11.4深度学习方法170
11.4.1基于DNN的统计模型方法170
11.4.2基于DNN的端到端建模172
11.4.3基于DNN的语言嵌入176
11.5Kaldi中的语种识别178
11.6小结180
12语音情绪识别182
12.1什么是语音情绪识别182
12.2语音情绪模型185
12.2.1离散情绪模型186
12.2.2连续情绪模型186
12.3语音情绪特征提取187
12.3.1语音情绪识别中的典型特征187
12.3.2局部特征与全局特征190
12.4语音情绪建模192
12.4.1离散情绪模型192
12.4.2连续情绪模型195
12.5深度学习方法196
12.5.1基础DNN方法196
12.5.2特征学习198
12.5.3迁移学习200
12.5.4多任务学习200
12.6小结201
13语音合成203
13.1激励-响应模型204
13.2参数合成207
13.3拼接合成208
13.4统计模型合成210
13.5神经模型合成212
13.6基于注意力机制的合成系统214
13.7小结216
参考文献217
索引241
×
Close
添加到书单
加载中...
点此新建书单
×
Close
新建书单
标题:
简介:
蜀ICP备2024047804号
Copyright 版权所有 © jvwen.com 聚文网