1500字范文 > 语音识别方法及系统与流程

语音识别方法及系统与流程

时间：2020-11-23 06:04:33

相关推荐

语音识别方法及系统与流程

本发明涉及智能语音领域，尤其涉及一种语音识别方法及系统。

背景技术：

语音识别通常采用混合高斯模型-隐马尔可夫模型性训练得到声学模型，再通过深度神经网络的输出每个汉语拼音的后验概率，利用后验概率计算得分和预定的信息进行比较，从而判断关键词是否在语音段中。

语音识别通常是通过深度神经网络模型进行识别解码，就需提前训练深度神经网络，在训练中，通常在接收到训练音频文件后，对训练音频文件进行分帧，从而提取各分帧的音频特征，拼帧后获得训练数据，每一帧进行对齐操作后进行训练深度神经网络模型。在音频解码时，先对音频文件进行分帧，之后再进行特征提取，拼帧后获输入至训练好的深度神经网络模型中，得到每一帧的后验概率，再按照一定的方式进行打分，得分与设定的关键词阈值比较，达到阈值时，则判断关键词被识别到。

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

随着说话人的情绪或者周围的环境，说话人的语速会有一定的变化，说话的速度会时快时慢，或者突然集中在某一处快速说话，使得容易让他人听出串词的感觉。而在多关键词检测中，通常会出现串词，随着说话人的语速，串词出现的频率可能会更加严重，而现有的方法对于相似关键词鉴别能力较弱。由于深度神经网络的太小可能会导致后验概率不准，由于语速快或串词相似的发音而导致的后验概率不准，现有的打分方式无法弥补上述的缺陷。

技术实现要素：

为了至少解决现有技术中由于深度神经网络的太小可能会导致后验概率不准，由于语速快或串词相似的发音而导致的后验概率不准，现有的打分方式无法弥补上述的缺陷的问题。

第一方面，本发明实施例提供一种语音识别方法，包括：

将提取到的语音文件每一帧的音频特征输入至深度学习神经网络中，确定每一帧的后验概率，通过对每一帧的后验概率进行平滑处理，确定组成所述对话语音的关键词；

检测所述关键词是否在预设易串词表中，若是，则确定所述关键词所在的串词集合；

获取所述语音文件中每帧的后验概率最大值对应的标签组成的第一标签序列，以及所述各待选词发音映射确定的第二标签序列，通过动态时间规整算法依次遍历所述第一标签序列与各待选词对应的第二标签序列的相似度，将最大相似度对应的待选词作为所述对话语音的识别词语，其中，所述各标签序列间可以不等长。

第二方面，本发明实施例提供一种语音识别系统，包括：

关键词确定程序模块，用于将提取到的语音文件每一帧的音频特征输入至深度学习神经网络中，确定每一帧的后验概率，通过对每一帧的后验概率进行平滑处理，确定组成所述对话语音的关键词；

易串词检测程序模块，用于检测所述关键词是否在预设易串词表中，若是，则确定所述关键词所在的串词集合；

识别程序模块，用于获取所述语音文件中每帧的后验概率最大值对应的标签组成的第一标签序列，以及所述各待选词发音映射确定的第二标签序列，通过动态时间规整算法依次遍历所述第一标签序列与各待选词对应的第二标签序列的相似度，将最大相似度对应的待选词作为所述对话语音的识别词语，其中，所述各标签序列间可以不等长。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的语音识别方法的步骤。

第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的语音识别方法的步骤。

本发明实施例的有益效果在于：针对普通打分方法判定拿不准时的词语进行再一次另一维度的判断，所考虑的因素和现有的打分方法完全不同，相当于遇到相似的词时，有串词表进行验证，在确定是串词时，确定各串词的不等长标签序列与语音标签序列的相似度，从而实现语音识别。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种语音识别方法的流程图；

图2是本发明一实施例提供的一种语音识别系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明一实施例提供的一种语音识别方法的流程图，包括如下步骤：

S11：将提取到的语音文件每一帧的音频特征输入至深度学习神经网络中，确定每一帧的后验概率，通过对每一帧的后验概率进行平滑处理，确定组成所述对话语音的关键词；

S12：检测所述关键词是否在预设易串词表中，若是，则确定所述关键词所在的串词集合；

S13：获取所述语音文件中每帧的后验概率最大值对应的标签组成的第一标签序列，以及所述各待选词发音映射确定的第二标签序列，通过动态时间规整算法依次遍历所述第一标签序列与各待选词对应的第二标签序列的相似度，将最大相似度对应的待选词作为所述对话语音的识别词语，其中，所述各标签序列间可以不等长。

在本实施方式中，可以将本方法适配在智能音箱，或者手机的智能语音助手中，在与用户进行语音交互时，接收用户输入的对话语音文件。

对于步骤S11，在接收到语音文件后，对语音文件进行分帧处理，在分帧处理后，进行音频特征提取，输入至深度学习神经网络中，通过深度学习神经网络得到每一帧的后验概率，通过对后验概率进行平滑处理，确定组成所述对话语音的关键词。例如，用户对某一产品点评进行输入，通过深度学习神经网络处理后，得到用户输入的内容为：“那家大碗宽面的味道套吃”。关键词有“大碗宽面”、“味道”、“套吃”。

对于步骤S12，检测所述关键词是否在预设易串词表中，其中，串词表是提前设置好的，例如关键词“套吃”，发音相似的有“特好吃”，这两个词就在一类的易串词中，确定易串词集合为{套吃，特好吃}。又例如，用户通过智能音箱发送一些指令，“打开空调，二十度”。与二十度发音类似的词语有二十四度。“二十度”，“二十四度”这类相似的次，也在一类的易串词表中，易串词集合为{二十度，二十四度}。

对于步骤S13，由于语速快或串词相似的发音而导致的后验概率不准，现有的打分方式无法弥补上述的缺陷，那么就需要另开辟一条方案，使各标签序列间可以不等长。以“那家大碗宽面的味道套吃”为例，获取这句话每帧的后验概率最大值对应的标签组成的第一标签序列，以及各待选词发音映射确定的第二标签序列，通过动态时间规整算法依次遍历所述第一标签序列与各待选词对应的第二标签序列的相似度，例如“那家大碗宽面的味道套吃”(语音)，这句话的第一标签序列和“套吃”的相似度为78％，这句话的第一标签序列和“特好吃”的相似度为93％，那么，将“特好吃”作为这句话的识别词语，那么，识别后为：“那家大碗宽面的味道特好吃”。

同样的，以“打开空调，二十度”(语音)这句话为例，获取这句话每帧的后验概率最大值对应的标签组成的第一标签序列。其中，标签就是数字,比如我们规定如下发音映射:er->0,shi->1，si->3，du->4，da->5，kai->6，kong->7....整个汉语无调的发音共400多个,可以穷举.那么串词表为：

同样的，各待选词发音映射确定的第二标签序列也如此获得，通过动态时间规整算法依次遍历所述第一标签序列与各待选词对应的第二标签序列的相似度，例如“打开空调，二十度”(语音)，这句话的第一标签序列和“二十度”的相似度为85％，这句话的第一标签序列和“二十四度”的相似度为95％，那么，将“二十四度”作为这句话的识别词语，那么，识别后为：“打开空调，二十四度”。

通过该实施方式可以看出，针对普通打分方法判定拿不准时的词语进行再一次另一维度的判断，所考虑的因素和现有的打分方法完全不同，相当于遇到相似的词时，有串词表进行验证，在确定是串词时，确定各串词的不等长标签序列与语音标签序列的相似度，从而实现语音识别。

作为一种实施方式，在本实施例中，在所述将提取到的语音文件每一帧的音频特征输入至深度学习神经网络中之前，所述方法还包括：

提取训练数据每一帧的音频特征，对所述每一帧的音频特征进行标签对齐操作，用作深度神经网络的训练参数；

对标签对齐后的音频特征，使用梯度下降算法迭代训练所述深度神经网络，以提高所述深度神经网络的大小。

在本实施方式中，需要训练深度神经网络，提取训练数据每一帧的音频特征，对所述每一帧的音频特征进行标签对齐操作，对标签对齐后的音频特征，使用梯度下降算法迭代训练所述深度神经网络。

通过该实施方式可以看出，提高了深度神经网络的大小，从而进一步提升后验概率的准确度，使对话语音识别更加精准。

作为一种实施方式，在本实施例中，所述通过对每一帧的后验概率进行平滑处理，确定组成所述对话语音的关键词包括：

通过对每一帧的后验概率进行平滑打分，确定所述对话语音识别结果的分值；

当所述识别结果的分值达到预设识别阈值时，将所述识别结果确定为组成所述对话语音的关键词。

在本实施方式中，通过对每一帧的后验概率进行平滑打分，确定对话语音识别结果的分值，从而确定组成对话语句的关键词，通过该实施方式可以看出，确定它有助于提高预测的准确性。

在本实施方式中，所述检测所述关键词是否在预设易串词表还包括：

当所述关键词不在所述预设易串词表中时，将所述关键词作为所述语音的识别词语。

在本实施方式中，例如，对话语句“打开电视”(语音)。其中的关键词并没有在易串词列表中，那么，直接将“打开电视”(文字)作为所述语音的识别词语。通过该实施方式可以看出，当关键词不在预设易串词表中时，就直接进行识别，保证程序的稳定运行。

如图2所示为本发明一实施例提供的一种语音识别系统的结构示意图，该系统可执行上述任意实施例所述的语音识别方法，并配置在终端中。

本实施例提供的一种语音识别系统包括：关键词确定程序模块11，易串词检测程序模块12和识别程序模块13。

其中，关键词确定程序模块11用于将提取到的语音文件每一帧的音频特征输入至深度学习神经网络中，确定每一帧的后验概率，通过对每一帧的后验概率进行平滑处理，确定组成所述对话语音的关键词；易串词检测程序模块12用于检测所述关键词是否在预设易串词表中，若是，则确定所述关键词所在的串词集合；识别程序模块13用于获取所述语音文件中每帧的后验概率最大值对应的标签组成的第一标签序列，以及所述各待选词发音映射确定的第二标签序列，通过动态时间规整算法依次遍历所述第一标签序列与各待选词对应的第二标签序列的相似度，将最大相似度对应的待选词作为所述对话语音的识别词语，其中，所述各标签序列间可以不等长。

进一步地，在关键词确定程序模块之前，所述系统还包括：神经网络训练程序模块，用于

提取训练数据每一帧的音频特征，对所述每一帧的音频特征进行标签对齐操作，用作深度神经网络的训练参数；

对标签对齐后的音频特征，使用梯度下降算法迭代训练所述深度神经网络，以提高所述深度神经网络的大小。

进一步地，所述关键词确定程序模块还用于：

通过对每一帧的后验概率进行平滑打分，确定所述对话语音识别结果的分值；

当所述识别结果的分值达到预设识别阈值时，将所述识别结果确定为组成所述对话语音的关键词。

进一步地，所述易串词检测程序模块还用于：

当所述关键词不在所述预设易串词表中时，将所述关键词作为所述语音的识别词语。

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的语音识别方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

检测所述关键词是否在预设易串词表中，若是，则确定所述关键词所在的串词集合；

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的测试软件的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的语音识别方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据测试软件的装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至测试软件的装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的语音识别方法的步骤。

本申请实施例的客户端以多种形式存在，包括但不限于：

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如平板电脑。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有语音识别的电子装置。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术特征：

1.一种语音识别方法，包括：

检测所述关键词是否在预设易串词表中，若是，则确定所述关键词所在的串词集合；

2.根据权利要求1所述的方法，其中，在所述将提取到的语音文件每一帧的音频特征输入至深度学习神经网络中之前，所述方法还包括：

提取训练数据每一帧的音频特征，对所述每一帧的音频特征进行标签对齐操作，用作深度神经网络的训练参数；

对标签对齐后的音频特征，使用梯度下降算法迭代训练所述深度神经网络，以提高所述深度神经网络的大小。

3.根据权利要求1所述的方法，其中，所述通过对每一帧的后验概率进行平滑处理，确定组成所述对话语音的关键词包括：

通过对每一帧的后验概率进行平滑打分，确定所述对话语音识别结果的分值；

当所述识别结果的分值达到预设识别阈值时，将所述识别结果确定为组成所述对话语音的关键词。

4.根据权利要求1所述的方法，其中，所述检测所述关键词是否在预设易串词表还包括：

当所述关键词不在所述预设易串词表中时，将所述关键词作为所述语音的识别词语。

5.一种语音识别系统，包括：

易串词检测程序模块，用于检测所述关键词是否在预设易串词表中，若是，则确定所述关键词所在的串词集合；

6.根据权利要求5所述的系统，其中，在关键词确定程序模块之前，所述系统还包括：神经网络训练程序模块，用于

提取训练数据每一帧的音频特征，对所述每一帧的音频特征进行标签对齐操作，用作深度神经网络的训练参数；

对标签对齐后的音频特征，使用梯度下降算法迭代训练所述深度神经网络，以提高所述深度神经网络的大小。

7.根据权利要求5所述的系统，其中，所述关键词确定程序模块还用于：

通过对每一帧的后验概率进行平滑打分，确定所述对话语音识别结果的分值；

当所述识别结果的分值达到预设识别阈值时，将所述识别结果确定为组成所述对话语音的关键词。

8.根据权利要求5所述的系统，其中，所述易串词检测程序模块还用于：

当所述关键词不在所述预设易串词表中时，将所述关键词作为所述语音的识别词语。

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-4中任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-4中任一项所述方法的步骤。

技术总结

本发明实施例提供一种语音识别方法。该方法包括：将提取到的语音文件每一帧的音频特征输入至深度学习神经网络中，确定每一帧的后验概率，通过对每一帧的后验概率进行平滑处理，确定组成对话语音关键词；确定关键词所在的串词集合；获取语音文件中每帧的后验概率最大值对应的标签组成的第一标签序列，以及各待选词发音映射确定的第二标签序列，遍历第一标签序列与各待选词对应的第二标签序列的相似度，将最大相似度对应的待选词作为对话语音的识别词语。本发明实施例还提供一种语音识别系统。本发明实施例所考虑的因素和现有的打分方法完全不同，通过串词表确定出串词时，确定各串词的不等长标签序列与语音标签序列的相似度，从而实现语音识别。

技术研发人员：万光辉

受保护的技术使用者：苏州思必驰信息科技有限公司

技术研发日：.06.12

技术公布日：.09.10

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。