针对声韵母相同但声调不同的近音字识别问题和声韵母及声调都相同的同音字识别问题,提出在语音模型和语言模型中分别引入声调和字转移概率,以提高近音字和同音字的识别率。首先将声调划分为 5 种表现形式添加到汉语音节的最后一个音素中构成新音素,使用高斯混合隐马尔科夫模型建模新音素。然后通过统计方法计算特定语境下的字间转移概率。最后使用 HTK 工具包实现了带声调的语音模型和有字转移概率的语言模型。实验结果证明添加声调可以提高近音字的识别率,使用特定语境下字间转移概率可以提高同音字的识别率。
语言是人类沟通的重要工具,语音识别是人工智能研究的重要领域。20 世纪 50 年代,贝尔实验室设计了第一个语音识别系统,实现了对孤立数字的语音识别[1]。20 世纪 60 年代,提出了时间归一化打分机制、音素动态跟踪技术和动态规划算法,有效地解决了语音信号的特征提取和不等长语音匹配问题[2]。20 世纪 70 年代,模式识别思想、线性预测编码等技术被应用于语音识别中,识别对象从孤立词转移到连续语音[3]。20 世纪 90 年代及以后,隐马尔科夫模型(hidden markov modol, HMM)、高 斯 混 合 模 型(gaussian mixed model, GMM)被提出[4],基于 GMM-HMM 的语音识别框架得到广泛使用和研究,文献[5]通过改进语音特征参数相邻帧的相关性,进一步提高 GMM-HMM 的准确度;文献[6-7]使用 GMM-HMM 识别了连续语音的声调。目前,深度学习技术也被应用于语音处理系统[8-11],由于它对训练数据和硬件资源有着极高的要求,限制了其使用范围。现代汉语是一种有声调的特殊语音,音素和声调组合可以构成无数个多音字和同音字的发音。一方面,同一个汉字在不同的声调下代表不同的意义,另一方面,相同的读音可能代表完全不同的汉字,因此,与印欧语系的语言相比,声调和上下文信息对汉语语音的识别具有更重要的作用[12]。本文在语音模型中添加声调,并使用字转移概率捕获上下文信息,修改 HTK[13]工具包以适应汉语语音识别问题,实验结果证明了声调对近音字识别的重要性,同时字转移概率的引入能有效提高同音字识别的准确率。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
全部0条评论
快来发表一下你的评论吧 !