语音是人类交流的最重要媒介,而多数语音出现在噪声环境之中。听力正常的人可以不受噪声干扰,而听力障碍者和语音识别系统都难以处理混有噪声的语音,这就需要语音分离处理。语音分离是一个去除语音中噪声的过程,也就是将目标语音从背景噪声中分离出来的过程。计算听觉场景分析(Computational Auditory Scene Analysis, CAS A)理论分析了人类完成语音分离任务的过程,研究了语音信号的表示方法,提出了完成语音分离任务的计算目标。根据计算听觉场景分析,来完成语音分离任务将是一个很有前景的研究方向。目前,根据计算听觉场景分析理论,研究者们将语音分离任务视为一个两类分类问题,对每一个语音分离单位(时间-频率单元,Time-Frequency unit, T-F unit)做出分类决策,判断其是属于噪声的一类还是属于目标语音的一类。当前研究者提出的方法是在分类时使用复杂特征,并且都是一次处理一个语音分离单位。而这些复杂特征的提取是十分耗时的,加之一次只处理一个单位,使得整个过程的时间复杂度变得很高。这就极大地限制了计算听觉场景分析方法的应用,比如,这些方法就难以应用在像助听器这样的资源受限且要求实时处理的设备中。 基于当前语音分离方法的不足,针对“使用复杂特征”和“一次处理一个单位”这两个使整个语音分离过程时间复杂度很高的因素,本文通过使用简单特征,简化了特征提取步骤,减小了计算量,而且我们提出的方法可以成批次地生成计算结果,从而加快了整个语音分离过程的速度。 除此之外,为了进一步提高语音分离系统的分类准确率,我们使用了层叠神经网络(Stacked Neural Network)模型。该模型可以刻画复杂的函数关系,它将多个简单神经网络模型一层层叠起来,并将下层网络的输出作为上层网络输入的一部分,这样上层网络的工作可以在下层网络工作的基础上完成,那么随着层叠网络层次的增多,准确率也能够逐步地得到提升。同样,深度神经网络(Deep Neural Network)模型是一个包含有多个隐层的神经网络,它也可以刻画复杂的函数关系,但层叠神经网络具有更高的灵活性,这种灵活性可以使我们在训练过程中加入指导信息,进而影响训练进程,可以进一步提升语音分离系统的性能。所以,本文使用层叠神经网络而不是深度神经网络。 我们将本文提出的方法与已知的性能最好的——基于深度神经网络和支持向量机的方法在相同的实验数据集上做比较,我们的方法不仅在准确率方面上略有优势,而且在处理速度上有大幅提升,可以使整个语音分离处理过程实时完成。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
全部0条评论
快来发表一下你的评论吧 !