让机器说话更自然语音合成还能干什么？

消耗积分:1 | 格式:rar | 大小:0.3 MB | 2017-09-29

分享资料个

　　语音合成又称文语转换（Text-To-Speech），简称TTS，指通过机械的、电子的方法生成语音的技术。

　　随着科技的发展，合成语音的自然度和音质均得到了明显的改善。目前，语音合成技术在我们生活中具有广泛的应用，如电子阅读、车载语音导航、银行医院排号系统、交通播报等等，这些应用场景都离不开语音合成。

　　简单来说语音合成分为文本分析、韵律分析和声学分析三个部分。通过文本分析提取出文本特征，在此基础上预测基频、时长、节奏等多种韵律特征，然后通过声学模型实现从前端参数到语音参数的映射，最后通过声码器合成语音。整个过程类似于“编码、信息匹配，解码的过程”。

　　一种是参数语音合成，另一种则是拼接合成。波形拼接语音合成的过程更容易理解，即在语料库中抽取合适的拼接单元，拼接成为句子。参数语音合成则需要对音库进行参数化建模，根据训练得到的模型预测出韵律参数和声学参数。

　　波形拼接语音合成需要对录音人进行长达几十个小时以上的录音采集，而参数语音合成则只需要十个小时的录音采集，即可完成一套定制化语音包的制作。在体验效果上，拼接拼接合成的语音更加贴近真实发音，但是通过参数合成的语音更稳定。

　　如何让机器说话更自然，有情感

　　从合成的发展历史来看，表现力、音质、复杂度和自然度一直是合成技术所追求的四点。但是目前水平下的合成语音很难体现出情感特征，例如在韵律表现上不够灵活，声调变化上相对死板。

　　让机器拥有自然、有情感、高表现力的声音，依旧是语音合成技术的一大难点。

　　摆脱平铺直叙，使合成语言更具有表现力高立足于以下条件：

　　1.情感丰富的大数据，如：更自然的发音、更丰富的情感、更高更强的表现力

　　2.新技术的应用

　　（1）深度神经网络技术已经成功应用到韵律模型、声学模型预测，并集成端到端的语音合成模型；

　　（2）弹性单元挑选技术，让合成语音更逼近真人发音；

　　（3）立足于大量数据的文本分析技术让合成系统更理解人类的语言；

　　3.强需求应用场景，如：语音导航、小说播报、个性化需求等

　　语音合成技术已全面支持多方言、多语种、多音色的选择，专业MOS评分可达4.0以上，为用户提供浑厚男声、甜美女声，并可根据用户需求实现音库定制，满足用户的个性化应用，例如：明星声音定制、童声定制、方言定制等。从两个角度来说，一。音色的定制化，需要跟踪录大量的音库，重新训练一个模型；二。个性化表示方法的定制化，可以录一些数据，通过深度学习训练模型，自适应的方法来实现。

下载并关注上传者 低至0.43元/天 开通VIP 免费下载

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

发评论

相关下载
相关文章

下载排行榜

继电保护原理
2024-08-21 29次下载

下载
labview实现DBC在界面加载配置
2024-08-19 20次下载

下载
BK4819模拟双向无线电集成电路数据手册
2024-08-05 12次下载

下载
正激、反激、推挽、全桥、半桥区别和特点
2024-08-27 10次下载

下载
信号完整性与电源完整性-电源完整性分析
2024-08-12 9次下载

下载
18W电源方案CR6212BSJ+CR3004SLD-实物样机图
2024-08-06 6次下载

下载

让机器说话更自然 语音合成还能干什么？

CAN总线的语音合成模块研制技术

DIY会说话的人形机器人头

syn6288语音合成模块资料分享

TTS语音合成模块产品手册

SYN8086语音合成芯片最全手册

使用Arduino进行语音识别和合成

Humaniod AI会说话的机器人与Arduino

会说话的机器人玩具开源分享

语音播报功能的实现

基于51单片机+LD3320语音模块+SYN6288语音合成——语音识别智能分类垃圾桶

基于自然邻居的标记分布机器学习算法

手机里的基带和射频到底是干什么用的？资料下载

表面电阻测试仪是干什么的？资料下载

特殊电阻可以干什么？资料下载

静电棒是干什么的？资料下载

使用神经网络实现语音驱动发音器官运动合成方法详细资料说明

如何在DOS窗口中连接SQL数据库

Zigbee深入浅出的实战资料免费下载

科大讯飞如何SDK导入和进行语音合成移植的详细资料说明

SYN6658中文语音合成芯片用户手册免费下载

如何进行马来语语音合成系统的设计与实现概述

如何使用多特征i-vector进行短语音说话人识别算法说明

如何使用多分形谱及特征来优选说话人识别系统的资料说明

LP-TTS V2.0中文语音合成模块使用说明.pdf

语音变换的语音篡改检测方法

基于MAP+CMLLR的说话人识别中发声力度问题

基于STRAIGHT和DBN实现语音转换

基于TMS320C6678的合成语音检测算法

SONIX公司语音IC的主要特点及其语音合成分析

通用语音控制系统模型与基于声纹识别的通用语音控制系统的设计

美国云服务器是干什么的

云服务器是干什么的

让机器拥有说话能力，智能语音与音频处理SoC

让设备更聪明 |启英泰伦离线自然说，开启智能语音交互新体验！

离线语音“自然说”让风扇更智能

让文字会说话，启英泰伦离线语音合成（TTS）技术全面升级！

什么是阻焊，阻焊的目的是干什么

人工智能技术应用是干什么的

人工智能能干什么

语音合成技术与语音合成数据，赋予声音新的可能性

情感语音合成，让机器如真人一样和我们交流

语音合成数据的重要性：打造自然流畅的语音合成体验

TTS语音合成技术及其应用

光缆是干什么用的？选购光缆需要注意哪些？

在线研讨会预告 | 多说话人语音融合——NVIDIA NeMo 代码解析

工控服务器是什么，它能干什么，它的应用领域有哪些

WT品牌语音芯片、功放芯片让人机交互更简单

转换器是干什么用的

DFRobot Gravity: 中英文语音合成模块

机器视觉能干什么

汽车AI语音交互 正在让机器交互更接近真人交互

人工智能有望让失声者重新正常“说话”

2GB内存台式机用什么系统好

汽车示波器能干什么？

机器人在商场里都能干什么

软件需求开发工程师是干什么的

车联网项目是合法的吗_车联网到底能干什么

NB-IoT到底是什么？有什么优点？能干什么用？本文带你了解

晶圆厂是干什么的

树莓派和单片机的区别_树莓派能干什么

下载排行榜

继电保护原理

labview实现DBC在界面加载配置

BK4819模拟双向无线电集成电路数据手册

正激、反激、推挽、全桥、半桥区别和特点

信号完整性与电源完整性-电源完整性分析

18W电源方案CR6212BSJ+CR3004SLD-实物样机图

让机器说话更自然语音合成还能干什么？

汽车AI语音交互正在让机器交互更接近真人交互