世俱杯 2025

产品

产品
资讯
资源
视频
学院
示例

产品中心
解决方案
行业方案
视频课程
关于慧都

热门产品

UI界面: DevExpress telerik BCGSoft Developer Machines

文档管理: Aspose E-iceblue GrapeCity PDFlib

图表控件: LightningChart Steema Iocomp

数据采集: TAKEBISHI Matrikon

思维导图: TheBrain XMind

开发工具: IntelliJ IDEA MyEclipse Zend PyCharm WebStorm CLion

报表控件: Fast Report Stimulsoft GrapeCity

加密解密: VMPsoft Eziriz Oreans

项目管理: DHTMLX NETRONIC

数据库管理: Devart PremiumSoft

条码工具: Bartender Softek Dynamsoft TEC-IT Byte Aspose.BarCode

解决方案

软件定制解决方案: 软件系统定制高端UI定制业务系统定制

智能制造解决方案: OMES制造执行系统 APS生产排程系统 OQMS质检管理系统 OPTS生产溯源系统 OTPM设备管理系统 OKanban看板管理 DA工业数据采集系统 SRM供应商管理 PDM产品数据管理 WMS仓储管理 OMES ProLine产线MES系统

行业方案

制造行业: 磁性材料行业hot 汽车零配件行业电子行业精密装配行业钣金行业机械加工行业汽车改装行业金属薄膜材料行业灯具照明行业电线电缆行业钢结构行业

其他行业: 石油行业hot 医疗行业金融行业建筑行业

视频课程

产品视频: UI界面类图标报表网络通讯文档管理矢量图像处理位图图像处理音频视频文件格式转码条形码加密解密测试分析地图/CAD/GIS BI/大数据算法工作流 UML 数据库/服务器 IDE 项目管理思维导图其他移动开发扫描识别条形码

学院课程: VIP视频免费视频用户界面图表报表文档管理大数据工作流项目管理测试分析往期公开课项目管理其他

企业培训: 定制培训班

关于慧都

慧都简介慧都文化联系我们合作伙伴典型客户

世俱杯 2025 > 资讯 > Deep Voice详解教程------前百度首席科学家吴恩达力荐（下篇）

Deep Voice详解教程------前百度首席科学家吴恩达力荐（下篇）

转帖|实施案例|编辑：龚雪|2017-03-29 17:38:20.000|阅读 1070 次

概述：如果你是语音合成的新手，那这篇文章教你快速理解百度的语音合成原理！

# 界面/图表报表/文档/IDE等千款热门软控件火热销售中 >>

现在我们继续上文的操作

步骤1：将语素（文本）转换为音素

“It was early spring” -> [IH1, T, ., W, AA1, Z, ., ER1, L, IY0, ., S, P, R, IH1, NG, .]

步骤2：预测每个音素的持续时间和基频

[IH1, T, ., W, AA1, Z, ., ER1, L, IY0, ., S, P, R, IH1, NG, .] -> [IH1 (140hz, 0.5s), T (142hz, 0.1s), . (Not voiced, 0.2s), W (140hz, 0.3s),…]

步骤3：将音素，持续时间和基频结合从而输出文本对应的语音

[IH1 (140hz, 0.5s), T (142hz, 0.1s), . (Not voiced, 0.2s), W (140hz, 0.3s),…] -> 音频

那么，我们实际通过什么样的方式来训练这些步骤的模型，从而得到可靠的预测结果呢？

语音训练流程-使用现有的数据训练Deep Voice

下面，我们将逐个讲解训练流程中的每个环节。

步骤一：训练语素—音素模型

语音合成的第一步就是使用语素—音素转换模型将文本转换成音素。

上一篇文章中我们就介绍了这个例子：

Input — “It was early spring” Output — [IH1, T, ., W, AA1, Z, ., ER1, L, IY0, ., S, P, R, IH1, NG, .]

在大多数情况下，我们可以使用音素字典直接将文本输入，并得到如上对应的音素结果。

但如果出现音素字典没有覆盖的词呢？这其实时常发生，就跟我们人类经常会增加新的词汇一样（比如，“谷歌”，“截屏”等等的）。那么，在遇到新词的时候，我们便需要一个回退机制来预测音素了。

Deep Voice使用神经网络来实现这个功能。准确来讲，它沿用过了Yao和Zweig在微软进行的Sequence to Sequence（Seq2Seq）的学习方法来进行文本对应的音素预测。

与其将这个原理用我自己的语言剖析深入，还是附上我觉得解释得比较好的视频和文章给大家来理解（）。

Quoc Le（Google Brain的深度学习研究院和Sequence to Sequenc分析模型的作者）在湾区深度学习学校关于Sequence to Sequenc分析模型的课程

数据构成

那么，基于上述原理，训练使用的数据和标签是什么样子的呢？

Input（X-逐字的）

[“It”, “was”, “early”, “spring”]

标签（Y）

[[IH1, T, .], [W, AA1, Z, .], [ER1, L, IY0, .], [S, P, R, IH1, NG, .]]

通过查询标准音素字典（比如CMU这个，链接），我们可以得到与输入文本一一对应的标签。

步骤二：运行分割模型

在上一篇中，我们讲过，在语音合成的时候我们需要预测音素的持续时间和基频。而通过音素的音频剪辑，我们可以轻易地获取这两个数据。

Deep Voice运用了分割模型来获取每个音素的音频剪辑。

分割模型将每个音素发声的场景进行匹配，从而获取其对应的音频分割片段和其在音频中的发声位置。

如下图所示：

分割模型预测了音素在一组音频剪辑中的发声位置和时长

数据构成

分割模型真正有趣的部分在于其预测的不是每个独立音素的位置，而实际是预测了每组音素对的位置。此外，这种模式是无监督的，因为我们事实上无法知道语音片段中语素对应的真正位置的标签信息。分割模型通过CTC loss模型来训练，你可以通过链接，深入了解它的原理。

如下是数据的形式：

Input（X）

“It was early spring”的音频剪辑
对应的音素
[IH1, T, ., W, AA1, Z, ., ER1, L, IY0, ., S, P, R, IH1, NG, .]

Outputs（Y）

音素对和它们在音频中的起始时间
[(IH1, T, 0:00), (T, ., 0:01), (., W, 0:02), (W, AA1, 0:025), (NG, ., 0:035)]

为什么要去预测音素对而不是独立的每个音素呢？因为当我们对给定时间戳对应的某个音素进行预测时，在该音素发声的中间位置预测的概率是最大的。

对独立单个的音素而言，给定语音对应某个音素的概率在语音的发声正中最大；而对成对的音素而言，概率最大值出现在两个音素交界点上

对成对的音素来说，概率最大值出现在两个音素交界点上（见上图）。我们可以轻易的检测出两个音素发声的交界点，因此，使用音素对可以让我们更简单地进行定位。

步骤三：训练音素的持续时间和基频的预测模型

在语音合成步骤中，我们需要对音素的持续时间和基频进行预测。

根据步骤二，我们已经从分割模型中拿到了音素的持续时间和基频，现在我们可以通过模型训练来预测新音素的数据了。

分割模型输出是持续时间模型和基频率模型的标签

Deep Voice通过一组单一共同训练的模型输出这些数据。

如下是数据组成：

Input（X）

音素
[IH1, T, ., W, AA1, Z, ., ER1, L, IY0, ., S, P, R, IH1, NG, .]

标签（Y）

每个音素的持续时间和基频，通过分割模型获取
[(IH, 0.05s, 140 hz), (T, 0.07s, 141 hz), … ]

有了这些数据，我们就可以进行时间和Fo函数预测了。

步骤四：训练语音合成

最后，我们需要对语音合成流程中的实际生成语音的步骤进行训练。与Deep Mind中的WaveNet非常相似，这个模型具有如下的架构：

我们将会把真实的语音剪辑作为标签来进行训练

数据构成：

Input（X）

带有持续时间和基频信息的音素
[(HH, 0.05s, 140 hz), (EH, 0.07s, 141 hz), ... ]

标签（Y）

对应文本的真实语音剪辑

这样，我们就将语音合成的各个步骤过了一遍，由此便可以进行语音合成了

总结

恭喜你！读到这里，你已经知晓了Deep Voice生成语音的过程了，多加练习，你也能成为生成语音的大咖！

更多行业资讯，更新鲜的技术动态，尽在。

标签：

本站文章除注明转载外，均为本站原创或翻译。欢迎任何形式的转载，但请务必注明出处、不得修改原文相关链接，如果存在内容上的异议请邮件反馈至chenjj@dpuzeg.cn

上一篇：解决方案|用Spark机器学习数据流水线进行广告检测下一篇：大数据|Spark技术在京东智能供应链预测的应用案例深度剖析（三）

世俱杯 2025相关的文章 MORE

业务系统定制

智能制造解决方案: 工业设计运营管理生产管理

石油工程解决方案: 油气勘探数字化钻井工程数字化数据管理与分析

关于我们: 慧都简介公司动态业务区域典型案例

区域服务电话: 重庆 / 023-68661681 华东 / 13452821722 华南 / 18166486035 华北 / 17347785263

客户支持: 技术培训/ 咨询服务服务热线：400-700-1020 邮箱：sales@dpuzeg.cn 微信在线咨询

官方公众号

官方视频号

服务电话

重庆/ 023-68661681

华东/ 13452821722

华南/ 18100878085

华北/ 17347785263

客户支持

技术支持咨询服务

服务热线：400-700-1020

邮箱：sales@dpuzeg.cn

关注我们

地址 : 重庆市九龙坡区火炬大道69号6幢

慧都科技版权所有 Copyright 2003- 2025 渝公网安备 50010702500608号

扫码咨询

添加微信立即咨询

电话咨询

客服热线
023-68661681

TOP

<tfoot id='ygvwe'></tfoot>

<legend id='ygvwe'><style id='ygvwe'><dir id='ygvwe'><q id='ygvwe'></q></dir></style></legend>

<i id='ygvwe'><tr id='ygvwe'><dt id='ygvwe'><q id='ygvwe'><span id='ygvwe'><b id='ygvwe'><form id='ygvwe'><ins id='ygvwe'></ins><ul id='ygvwe'></ul><sub id='ygvwe'></sub></form><legend id='ygvwe'></legend><bdo id='ygvwe'><pre id='ygvwe'><center id='ygvwe'></center></pre></bdo></b><th id='ygvwe'></th></span></q></dt></tr></i><div id='ygvwe'><tfoot id='ygvwe'></tfoot><dl id='ygvwe'><fieldset id='ygvwe'></fieldset></dl></div>