本文以开发印尼语语音合成系统为目的,研究印尼语文本分析与处理方法,主要研究了文本归一化和音节划分方法。采用正则表达及关键字相结合的方法,对文本中数字及特殊字符进行归一化处理;采用基于音节列表及特殊规则相结合的方案实现音节划分。从发音语料库中挑选出500个包含特殊字符的句子进行归一化测试,按特殊字符词数统计的正确率达96.0%。选取词典中的1000个单词进行集内测试,其音节化结果和人工划分结果相比,正确率为98.2%;从文本语料库中任意选取480个句子共计5850个单词进行集外测试,其正确率为97.1%。实验结果表明,上述方法为印尼语音合成系统的开发奠定了良好的基础。
目前印尼语公开发布的语料库是从一部流行的印度尼西亚小说中提取并以男女对话的方式进行录音的,该语料库的覆盖范围较窄。对于印尼语语音合成系统,Mengko 和Ayuningtyas 研究了基于音节拼接的印尼语文语转换系统,其主要针对音节声音数据库质量和播放过程中音节的整合问题进行改进,但该系统音节列表不全且未考虑音节组合的韵律特征。Sutarman 研究了使用双音素拼接的印尼语文语转换系统,此系统在构造双音素数据库和文本到语音的过程中发现,在音素表中查找单词时不够精确,并且在分割过程中,使用双音素进行切分得到的结果也不尽如人意。
本文聚焦于印尼语语音合成系统中的前端文本分析模块,着重关注文本语料库中数字及特殊字符的归一化以及基于音节列表和特殊规则相结合的印尼语音节的自动划分。
本文的结构如下:第1 节为印尼语的简单概述;第2 节对印尼语发音语料库的构建进行阐述;第3节介绍了印尼语中非标准词的归一化方法;第4 节介绍印尼语的音节划分;第5 节对整个实验过程进行了总结。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
全部0条评论
快来发表一下你的评论吧 !