1500字范文,内容丰富有趣,写作好帮手!
1500字范文 > 一种语音识别方法 装置及计算机可读存储介质与流程

一种语音识别方法 装置及计算机可读存储介质与流程

时间:2021-06-15 06:59:54

相关推荐

一种语音识别方法 装置及计算机可读存储介质与流程

本公开涉及音频电路领域,尤其涉及一种语音识别方法、装置及计算机可读存储介质。

背景技术:

现有的音频采集电路常用于不同工作场景,并且在不同的工作场景有不同的指标要求,但是由于器件性能的限制,很难兼顾所有工作场景的需求。例如现有的麦克风阵列电路,由于麦克风器件性能影响,要么aop(acousticoverloadpoint,声学过窄点)指标一般,无法用于噪声特别恶劣的环境,要么aop指标优秀,但是snr(signaltonoiseratio,信噪比)指标不好,拾音质量较差。因此现有麦克风阵列或者专用于普通环境,具有较高snr性能;或者用于噪声特别恶劣环境,具有较高aop指标,没办法同时兼顾。

技术实现要素:

(一)要解决的技术问题

本公开提供了一种语音识别方法、装置及计算机可读存储介质,以至少部分解决以上所提出的技术问题。

(二)技术方案

根据本公开的一个方面,提供了一种语音识别方法,包括:

监测拾音声强数据,根据所述拾音声强数据进行工作场景判断,得到工作场景判断结果;

根据所述工作场景判断结果,选择至少一个第一麦克风的第一音频数据或至少一个第二麦克风的第二音频数据,其中,所述第一麦克风的的第一参数在第一设范围,所述第二麦克风的第二参数在第二预设范围;

采用选择的第一音频数据或第二音频数据进行语音识别。

在一些实施例中,所述第一麦克风的第一参数aop高于第一预设值,所述第二麦克风的第二参数snr高于第二预设值。

在一些实施例中,所述选择至少一个第一麦克风的第一音频数据或至少一个第二麦克风的第二音频数据包括:

发送选通信号,选通至少一个第一麦克风和/或至少一个第二麦克风的数据线路和/或供电电源,接收选通的麦克风的音频数据;或

对接收到的至少一个第一麦克风的第一音频数据和至少一个第二麦克风的第二音频数据进行选择。

在一些实施例中,所述根据所述拾音声强数据进行工作场景判断,得到工作场景判断结果包括:

将监测的所述拾音声强数据与预设切换阈值进行比较;

若所述拾音声强数据大于所述预设切换阈值,则判断当前场景为适用所述第一麦克风的第一工作场景;

若所述拾音声强数据小于或等于所述预设切换阈值,则判断当前场景为适用所述第二麦克风的第二工作场景。

在一些实施例中,所述工作场景判断结果的初始值默认为适用所述第二麦克风的第二工作场景,或适用所述第一麦克风的第一工作场景。

在一些实施例中,所述根据所述工作场景判断结果,选择至少一个第一麦克风的第一音频数据或至少一个第二麦克风的第二音频数据,包括:

若所述工作场景判断结果为第一工作场景,则发送选通控制信号,选通至少一个第一麦克风,接收至少一个第一麦克风的第一音频数据用于语音识别;

若所述工作场景判断结果为第二工作场景,则发送选通控制信号,选通至少一个第二麦克风,接收至少一个第二麦克风的第二音频数据用于语音识别。

在一些实施例中,所述根据所述工作场景判断结果,选择至少一个第一麦克风的第一音频数据或至少一个第二麦克风的第二音频数据包括:

接收至少一个第一麦克风和至少一个第二麦克风,并对至少一个第一麦克风的第一音频数据和至少一个第二麦克风的第二音频数据缓冲存储;

根据所述工作场景判断结果,选择所述第一音频数据或所述第二音频数据用于进行语音识别。

在一些实施例中,所述语音识别方法还包括:

根据所述工作场景判断结果,选择所述第一音频数据或所述第二音频数据用于进行语音识别,获取语音识别结果后,判断所述语音识别结果是否正确,如果所述语音识别结果为正确结果,则将其作为最终语音识别结果;否则,采用另一组音频数据进行语音识别,并综合两种语音识别处理结果进行判断,得到最终语音识别结果。

在一些实施例中,所述语音识别方法还包括:

当根据所述工作场景判断结果,选择至少一个第一音频数据或至少一个第二音频数据的其中一组进行语音识别后,继续监测拾音声强数据并进行工作场景判断,若工作场景判断结果发生改变,则采用另一组音频数据进行语音识别。

根据本公开的另一个方面,提供了一种语音识别装置,包括:

模式选择预处理单元,所述模式选择预处理单元用于监测拾音声强数据,根据所述拾音声强数据进行工作场景判断,得到工作场景判断结果;

工作模式选择单元,连接至所述模式选择预处理单元,所述工作模式选择单元用于根据所述工作场景判断结果,选择至少一个第一麦克风的第一音频数据或至少一个第二麦克风的第二音频数据,其中,所述第一麦克风的aop高于第一预设值,所述第二麦克风的snr高于第二预设值;

语音识别处理单元,连接至所述工作模式选择单元,用于对选通的麦克风的数据进行语音识别。

在一些实施例中,所述模式选择预处理单元还包括:

比较单元,用于将监测的所述拾音声强数据与预设切换阈值进行比较,若所述拾音声强数据大于所述预设切换阈值,则判断当前场景为适用所述第一麦克风的第一工作场景;若所述拾音声强数据小于或等于所述预设切换阈值,则判断当前场景为适用所述第二麦克风的第二工作场景。

在一些实施例中,所述语音识别处理单元还包括:

语音唤醒单元,用于在语音识别前进行语音唤醒。

根据本公开的另一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如前所述的语音识别方法。

(三)有益效果

从上述技术方案可以看出,本公开至少具有以下有益效果:

通过工作场景的判断,选择不同参数指标的器件发送的数据进行语音识别,使音频采集电路适用于不同的工作场景,例如具有高snr和高aop的麦克风之间的切换,使音频采集电路适用于普通工作环境和噪声特别恶劣环境的工作环境。

附图说明

图1a为本公开第一实施例麦克风阵列的结构示意图。

图1b为本公开第一实施例麦克风数据线路选通电路麦克风数据线路选通电路图。

图2为本公开第二实施例麦克风数据线路选通电路的电路结构图。

图3为本公开第三实施例麦克风电源选通电路的电路结构图。

图4为本公开第四实施例麦克风电源选通电路的电路结构图。

图5为本公开第六实施例语音识别方法的流程图。

图6为本公开第六实施例单次语音交互过程中不进行模式切换的方法流程图。

图7为本公开第六实施例单次语音交互过程中进行模式切换的方法流程图。

图8为本公开第六实施例语音识别方法综合语音识别处理结果的流程图。

图9为本公开第七实施例语音识别装置的结构框图。

具体实施方式

本公开提供了一种语音识别方法及装置,通过选通电路自适应切换不同参数指标的器件,可以适用于不同的工作场景。具体地,通过提供一种麦克风阵列的选通方法,实现具有高snr和高aop的麦克风之间的切换,适用于普通工作环境和噪声特别恶劣环境的工作环境。

为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。

本公开某些实施例于后方将参照所附附图做更全面性地描述,其中一些但并非全部的实施例将被示出。实际上,本公开的各种实施例可以由许多不同形式实现,而不应被解释为限于此处所阐述的实施例;相对地,提供这些实施例使得本公开满足适用的法律要求。

在本公开的第一个示例性实施例中,提供了一种选通电路。所述选通电路连接至少一第一用电器与至少一第二用电器,所述第一用电器的第一参数在第一预设范围,所述第二用电器的第二参数在第二预设范围。本实施例中,所述第一用电器为第一麦克风,所述第二用电器为第二麦克风。

图1a为本公开第一实施例麦克风阵列的结构示意图。如图1a所示,在麦克风阵列中每个麦克风位置,使用两颗麦克风,一颗使用高aop的麦克风,另一颗使用高snr的麦克风。

请再参阅图1,其中,第一麦克风mic11为高aop麦克风,第二麦克风mic12为高snr麦克风,mic21为高aop麦克风,mic22为高snr麦克风,以此类推。

本实施例中,所述第一麦克风mic11与第二麦克风mic12通过选通电路实现选通。所述选通电路为麦克风数据线路选通电路,用于选通所述至少一第一麦克风或所述至少一第二麦克风的数据线路。具体地,所述麦克风数据线路选通电路包括第一开关电路与第二开关电路。

其中,第一开关电路与第一麦克风连接,所述第一开关电路的输入端连接第一选通控制信号,输出端为第一麦克风数据输出端;所述第一开关电路包括第一可通断器件,所述第一可通断器件连接至第一麦克风及第一选通控制信号;

第二开关电路与第二麦克风连接,所述第二开关电路的输入端连接第二选通控制信号,输出端为第二麦克风数据输出端;所述第二开关电路包括第二可通断器件,所述第二可通断器件连接至第二麦克风及第二选通控制信号。

图1b为本公开第一实施例麦克风数据线路选通电路的电路结构图。如图1b所示,所述第一麦克风mic11与第二麦克风mic12分别通过第一开关电路与第二开关电路选通。

其中,所述第一开关电路包括电阻r11、电阻r12、电阻r13、电容c11及三极管q11,其中,所述电阻r11第一端连接三极管q11的基极,并通过电阻r12连接电源vcc,第二端连接选通控制信号gpio11;三极管q11的发射极接地,集电极与第一麦克风的数据输出端连接;电阻r13第二端连接三极管q11的集电极,并通过电容c11接地,第一端作为第一开关电路的数据输出端。

所述第二开关电路包括电阻r14、电阻r15、电阻r16、电容c12及三极管q12,其中,所述电阻r14第一端连接三极管q12的基极,并通过电阻r15接地,第二端连接选通控制信号gpio12;三极管q12的发射极接地,集电极与麦克风的数据输出端连接;电阻r16第二端连接三极管q12的集电极,并通过电容c12接地,第一端作为第二开关电路的数据输出端。

由此,所述第一麦克风mic11与第二麦克风mic12分别通过主控芯片发送的不同的选通控制信号gpio11与gpio12选通。具体地,所述第一麦克风mic11由主控芯片发出的选通控制信号gpio11控制开关的通断,当gpio11为高电平时,三极管q11导通,mic11的数据信号对地短接,相当于mic11不工作。当gpio11为低电平时,三极管q11截止,mic11的数据信号通过r13输出给主控芯片,mic11正常工作。设置电容c11用于吸收第一开关电路的开关噪声。

所述第二麦克风mic12由主控芯片发出的选通控制信号gpio11控制开关的通断,当gpio12为高电平时,开关打开,mic11的数据信号对地短接,相当于mic11不工作。当gpio12为低电平时,q12截止,mic12的数据信号通过r16输出给主控芯片,mic12正常工作。设置电容c12用于吸收第二开关电路的开关噪声。

本实施例的麦克风电路在初始状态下,当gpio11、gpio12处于高阻态时,第一开关电路默认处于打开状态,高aop麦克风的mic11的数据信号对地短接,data1无信号;第二开关电路默认处于关闭状态,高snr麦克风的mic12的数据信号正常输出,data2信号正常,从而麦克风电路初始状态默认适用于普通工作场景。

可以理解的是,在其他实施例中,所述麦克风电路可以设置在初始状态下,第一电路默认关闭,第二电路默认打开,输出data2信号,从而麦克风电路初始状态默认适用于噪声嘈杂的工作场景。

由此,通过本实施例的麦克风阵列的选通电路,可以实现具有高snr和高aop的麦克风之间的切换,兼顾普通工作环境和噪声特别恶劣环境的工作环境。

在本公开的第二个示例性实施例中,提供了一种选通电路。所述选通电路连接至少一第一用电器与至少一第二用电器,所述第一用电器的第一参数在第一预设范围,所述第二用电器的第二参数在第二预设范围。本实施例中,所述第一用电器为第一麦克风,所述第二用电器为第二麦克风。所述第一麦克风mic11与第二麦克风mic12通过选通电路实现选通。

与第一实施例相同的是,所述选通电路同样为麦克风数据线路选通电路,用于选通所述至少一第一麦克风和/或所述至少一第二麦克风的数据线路。而不同于第一实施例的,本实施例中麦克风数据线路选通电路包括第一切换控制电路、第一开关电路与第二开关电路。

其中,所述第一切换控制电路的输入端连接选通控制信号;所述第一切换控制电路包括第三可通断器件,所述第三可通断器件连接至第二用电器及选通控制信号;

第一开关电路与第一用电器连接,所述第一开关电路的输入端连接至选通控制信号,输出端为第一用电器数据输出端;所述第一开关电路包括第一可通断器件,所述第一可通断器件连接至第一用电器及选通控制信号;

第二开关电路与第二用电器连接,所述第二开关电路的输入端连接至第一切换控制电路,输出端为第二用电器数据输出端,所述第二开关电路包括第二可通断器件,所述第二可通断器件连接至第二用电器及所述第一切换控制电路。

图2为本公开第二实施例麦克风数据线路选通电路的电路结构图。如图2所示,所述第一麦克风mic11通过第一开关电路选通;第二麦克风mic12通过第一切换控制电路与第二开关电路选通。

其中,所述第一切换控制电路包括电阻r22、电阻r25、三极管q23、电容c23,其中,所述电阻r22的第一端连接电源vcc,第二端连接选通控制信号gpio2及三极管q23的基极,并通过电容c23接地;三极管q23的发射极接地,集电极通过电阻r25连接电源vcc;

所述第一开关电路包括电阻r21、电阻r23、电容c21、三极管q21;其中,所述电阻r21的第二端连接三极管q23的基极,第一端连接三极管q21的基极;三极管q21的发射极接地,集电极连接第一麦克风的的数据输出端;电阻r23第二端连接三极管q21的集电极,并通过电容c21接地,第一端作为第一开关电路的数据输出端;

所述第二开关电路包括电阻r24、三极管q22、电容c22、电阻r26;所述电阻r24的第二端连接三极管q23的集电极,第一端连接三极管q22的基极;三极管q22的发射极接地,集电极连接麦克风的数据输出端;电阻r6第二端连接三极管q22的集电极,并通过电容c22接地,第一端作为第二开关电路的数据输出端。

由此,所述第一麦克风mic11与第二麦克风mic12通过主控芯片发送的选通控制信号gpio2实现二选一。当选通控制信号gpio2输出高电平时,mic12输出数据给主控芯片;当gpio2输出低电平时,mic11输出数据给主控芯片。

在本公开的第三个示例性实施例中,提供了一种选通电路。所述选通电路连接至少一第一用电器与至少一第二用电器,所述第一用电器的第一参数在第一预设范围,所述第二用电器的第二参数在第二预设范围。本实施例中,所述第一用电器为第一麦克风,所述第二用电器为第二麦克风。所述第一麦克风mic11与第二麦克风mic12通过选通电路实现选通。

与第一、二实施例不同的是,所述选通电路为麦克风电源选通电路,用于选通所述至少一第一用电器和/或所述至少一第二用电器的供电电源,包括第二切换控制电路、第一供电电路和第二供电电路。

其中,所述第二切换控制电路的输入端连接选通控制信号;所述第二切换控制电路包括第一可通断器件,所述第一可通断器件连接选通控制信号及第一供电电路;

第一供电电路用于向第一用电器供电,所述第一供电电路的输入端连接至第二切换控制电路,输出端连接第一用电器电源输入端;所述第一供电电路包括第二可通断器件,所述第二可通断器件连接第二切换控制电路及第一用电器供电电源;

第二供电电路用于向第二用电器供电,所述第二供电电路的输入端连接至选通控制信号,输出端连接第二用电器电源输入端;所述第二供电电路包括第三可通断器件,所述第三可通断器件连接选通控制信号及第二用电器供电电源。

图3为本公开第三实施例麦克风电源选通电路的电路结构图。如图3所示,第二切换控制电路包括电阻r31、电容c31、电阻r32、三极管q31,其中,所述电阻r31的第一端连接电源vcc,第二端连接选通控制信号gpio3,并通过电阻r32连接三极管q31的基极,通过电容c31接地;三极管q31的发射极接地。

第一供电电路包括电阻r38、电阻r39、电容c34、电容c35、mos管q35、电阻r33、三极管q32;其中,电阻r38的第二端连接电源vcc,第一端连接三极管q32的集电极;三极管q32的发射极接地,基极通过电阻r33连接三极管q31的集电极,集电极通过电阻r39连接mos管q35的栅极;mos管q35的源极连接电源vcc,漏极连接第一麦克风的电源输入端,并通过电容c35接地,mos管q35的源极及栅极之间连接有电容c34,源极与漏极之间连接有寄生二极管。

第二供电电路包括电阻r35、电容c32、电容c33、mos管q34、电阻r36、电阻r34、三极管q33;其中,电阻r35的第二端连接电源vcc,第一端连接三极管q33的集电极;三极管q33的发射极接地,基极通过电阻r34连接电阻r32的第二端,集电极通过电阻r36连接mos管q34的栅极;mos管q34的源极连接电源vcc,漏极连接第二麦克风的电源输入端,并通过电容c33接地,mos管q34的源极及栅极之间连接有电容c32,源极与漏极之间连接有寄生二极管。

由此,所述第一麦克风mic11与第二麦克风mic12通过主控芯片发送的选通控制信号gpio3实现二选一。当gpio3输出高电平时,mic12的供电电路打开、mic11的供电电路关闭。mic12正常工作,输出数据给主控芯片;当gpio3输出低电平时,mic11的供电电路打开、mic12的供电电路关闭。mic11正常工作,输出数据给主控芯片。

在本公开的第四个示例性实施例中,提供了一种选通电路。所述选通电路连接至少一第一用电器与至少一第二用电器,所述第一用电器的第一参数在第一预设范围,所述第二用电器的第二参数在第二预设范围。本实施例中,所述第一用电器为第一麦克风,所述第二用电器为第二麦克风。所述第一麦克风mic11与第二麦克风mic12通过选通电路实现选通。

本实施例中,所述选通电路用于选通所述至少一第一用电器和/或所述至少一第二用电器的供电电源,包括第一供电电路和第二供电电路。

其中,所述第一供电电路用于向第一用电器供电,所述第一供电电路的输入端连接至选通控制信号gpio41,输出端连接第一用电器电源输入端;所述第一供电电路包括第一可通断器件,所述第一可通断器件连接选通信号及第一用电器供电电源;

第二供电电路用于向第二用电器供电,所述第二供电电路的输入端连接至选通控制信号gpio42,输出端连接第二用电器电源输入端;所述第二供电电路包括第二可通断器件,所述第二可通断器件连接选通控制信号及第二用电器供电电源。

图4为本公开第三实施例麦克风电源选通电路的电路结构图。如图4所示,第一供电电路包括电阻r41、电容c41、电容c42、电容c43、三极管q41、电阻r42、电阻r43、mos管q42;其中,电阻r41的第二端连接选通信号gpio41,第一端连接三极管q41的基极;电阻r42的第二端连接电源vcc,第一端连接三极管q41的集电极;三极管q41的发射极接地,基极通过电容c43接地,集电极通过电阻r43连接mos管q42的栅极;mos管q42的源极连接电源vcc,漏极连接第二麦克风的电源输入端,并通过电容c42接地,mos管q42的源极及栅极之间连接有电容c41,源极与漏极之间连接有寄生二极管。

第二供电电路包括电阻r45、电容c44、电容c45、电容c46、三极管q43、电阻r46、电阻r47、mos管q44;其中,电阻r45的第二端连接选通信号gpio42,第一端连接三极管q43的基极;电阻r46的第二端连接电源vcc,第一端连接三极管q43的集电极;三极管q43的发射极接地,基极通过电容c46接地,集电极通过电阻r47连接mos管q44的栅极;mos管q44的源极连接电源vcc,漏极连接第二麦克风的电源输入端,并通过电容c45接地,mos管q44的源极及栅极之间连接有电容c44,源极与漏极之间连接有寄生二极管。

由此,所述第一麦克风mic11与第二麦克风mic12通过主控芯片发送的选通控制信号gpio41、gpio42实现二选一或同时选通。当gpio41输出高电平时,mic11的供电电路打开,mic11正常工作,输出数据给主控芯片;当gpio41输出低电平时,mic11的供电电路关闭;当gpio42输出高电平时,mic12的供电电路打开,mic12正常工作,输出数据给主控芯片;当gpio3输出低电平时,mic11的供电电路关闭。

在本公开的第五个示例性实施例中,提供了一种麦克风阵列电路。所述麦克风阵列电路包括主控芯片、采集电路单元及选通电路单元。

其中,主控芯片用于发送麦克风电路的选通控制信号,并接收至少一个第一麦克风的第一音频数据和/或至少一个第二麦克风的音频数据。

采集电路单元包括至少一第一麦克风与至少一第二麦克风,所述第一麦克风的aop高于第一预设值,所述第二麦克风的snr高于第二预设值。

选通电路单元连接至所述主控芯片的选通控制信号输出端,所述选通电路单元可以为麦克风数据线路选通电路或麦克风电源选通电路,示例性的,所述麦克风数据线路选通电路可以采用如第一、二实施例所述的选通电路;或者,所述麦克风电源选通电路可以采用如第三、四实施例所述的选通电路。

可以理解的是,所述选通电路单元还可以为多端输入单元,所述多端输入单元的输入端连接至至少一第一麦克风与至少一第二麦克风的数据输出端,输出端连接主控芯片。该方式要求主控芯片有足够多的麦克风数据输入通道,所有的麦克风数据均输入给主控芯片,由其主动选择所要使用的麦克风数据。

由此,通过本实施例的麦克风阵列电路,可以通过不同工作场景实现具有高snr和高aop的麦克风之间的切换,兼顾普通工作环境和噪声特别恶劣环境的工作环境。

在本公开的第六个示例性实施例中,还提供了一种音箱,包括如第四实施例所述的麦克风阵列电路。其中,所述采集电路单元包括多个采集子单元,每个采集子单元包括至少一第一麦克风与至少一第二麦克风,所述多个采集子单元呈均匀分布安装在载体上,其中,该载体可以为电路板或者音箱壳体。通过这种分布方式,能够使不同方向接收的声音更加真实,进而能够更加准确地选通不同麦克风。示例性的,请再参见图1a,所述每个采集子单元包括一个第一麦克风与一个第二麦克风,多个采集子单元围绕音箱壳体圆周均匀分布。

本实施例中,第一麦克风mic11为高aop麦克风,第二麦克风mic12为高snr麦克风,mic21为高aop麦克风,mic22为高snr麦克风,以此类推。高aop麦克风型号包括sph0655lm4h-1、spw0690lm4h-1等;高snr麦克风型号包括bom9736rl-t、md-dra361-p10等。

进一步的,所述音箱还可以设置有声强监测装置,该声强监测装置与主控芯片连接,用于监测外界的声音强度,并将监测的声强数据发送至主控芯片,使主控芯片根据该声强数据选通麦克风。其中,该声强监测装置可以为声音强度监测器、声音强度监测电路等。另一种方案为:主控芯片自带声音强度检测功能,可获取采集电路单元中麦克风采集的声音信号,对该声音信号进行检测,获得声强数据。当在采集电路单元中任意一个麦克风工作的情况下,主控芯片都可以根据该麦克风获取外界的声强数据,即拾音声强水平。所述拾音声强水平用于与预设的切换阈值进行比较,决定使用哪个麦克风的数据。上述两种方案都适用于本公开。

在本公开的第七个示例性实施例中,提供了一种语音识别方法。图5为本公开语音识别方法的流程图。如图5所示,所述语音识别方法包括:

s101,监测拾音声强数据,根据所述拾音声强数据进行工作场景判断,得到工作场景判断结果;

s102,根据所述工作场景判断结果,选择至少一个第一麦克风的第一音频数据或至少一个第二麦克风的第二音频数据,其中,所述第一麦克风的第一参数在第一设范围,所述第二麦克风的第二参数在第二预设范围;

s103,采用选择的第一音频数据或第二音频数据进行语音识别。

其中,所述步骤s101进一步包括:

将监测的所述拾音声强数据与预设切换阈值进行比较;

若所述拾音声强数据大于所述预设切换阈值,则判断当前场景为适用所述第一麦克风的第一工作场景;

若所述拾音声强数据小于或等于所述预设切换阈值,则判断当前场景为适用所述第二麦克风的第二工作场景。

示例性的,所述第一麦克风的第一参数为aop,其高于第一预设值,所述第二麦克风的第二参数为snr,其高于第二预设值。当拾音声强数据大于所述预设切换阈值,选择第一麦克风输出的第一音频数据进行语音识别;当拾音声强数据小于等于所述预设切换阈值,选择第二麦克风输出的第二音频数据进行语音识别。

所述工作场景判断结果的初始值默认为适用所述第二麦克风的第二工作场景,或适用所述第一麦克风的第一工作场景。示例性的,所述麦克风电路在初始状态下,高snr麦克风的音频数据信号正常输出,从而麦克风电路初始状态默认适用于普通工作场景;所述麦克风电路可以设置在初始状态下,高aop麦克风的音频数据信号正常输出,从而麦克风电路初始状态默认适用于噪声嘈杂的工作场景。

所述步骤s102中,所述选通控制信号可以为数据线路选通控制信号和/或电源供电选通控制信号。

具体地,可以采用所述第一、二、三、四实施例所述的选通电路,在同一时间,两组麦克风(高aopor高snr)的拾音数据中,只有一组处于工作状态。则所述步骤s102可以包括:

若所述工作场景判断结果为第一工作场景,则发送选通控制信号,选通至少一个第一麦克风,接收至少一个第一麦克风的第一音频数据用于语音识别;

若所述工作场景判断结果为第二工作场景,则发送选通控制信号,选通至少一个第二麦克风,接收至少一个第二麦克风的第二音频数据用于语音识别。

在一具体实施例中,在每次唤醒模块语音处理之前进行场景判断及工作模式切换,在单次语音交互过程中不进行模式切换,完成即一次唤醒--识别--响应过程。该方法流程如图6所示。

进一步的,若在单次语音交互识别过程中,已经选定了某一工作模式后,环境突然发生剧烈变化,导致无法正常识别,可以重新发送选通控制信号,选通另一组麦克风的数据进行识别处理。该方法流程如图7所示。

在其他实施例中,还可以采用所述第一实施例所述的选通电路同时选通至少一个第一麦克风和至少一个第二麦克风,或采用多端输入单元,所述多端输入单元的输入端连接至至少一个第一麦克风与至少一个第二麦克风的数据输出端,同时发送两种模式麦克风的拾音数据至主控芯片。在此情况下,主控芯片可以选择第一麦克风与第二麦克风其中之一的音频数据进行语音识别,或根据需要选择结合两种音频数据进行语音识别。

具体地,所述步骤s102还可以包括:

发送选通控制信号选通至少一个第一麦克风和至少一个第二麦克风,并对至少一个第一麦克风的第一音频数据和至少一个第二麦克风的第二音频数据同时缓冲存储;

根据所述工作场景判断结果,选择所述第一音频数据或所述第二音频数据用于进行语音识别。

进一步的,在存储了两种模式麦克风的第一音频数据与第二音频数据后,主控芯片可以根据所述工作场景判断结果,选择所述第一音频数据或所述第二音频数据用于进行语音识别,获取语音识别结果,并判断所述语音识别结果是否正确,如果所述语音识别结果为正确结果,则将其作为最终语音识别结果;否则,采用另一组音频数据进行语音识别,并综合两种语音识别处理结果进行判断,得到最终语音识别结果。该方法流程如图8所示。

例如,在一种工作模式下无法正确识别语音指令情况下,或者只能正确识别一部分指令,比如:“我要听周杰伦的告白气球”,一种模式下可能完全识别不出来有正确含义的指令,或者只识别出来一部分“我要听周杰伦……”。此时辅助使用另一种模式的拾音数据,然后综合判断,得到正确的语音指令。又例如,厨房内语音识别设备,如抽油烟机、电饭锅等,带有智能语音识别功能时,由于厨房内噪声比较严重,有抽油烟机的声音、炒菜的声音等,噪声环境复杂,且不同时间,噪声环境差别又很大。在此情况下采用任一种单一模式的麦克风音频数据无法获得较好的识别效果,因此采用高aop与高snr双麦克式的麦克风阵列,双路麦克风数据同时传输给主控芯片,主控芯片同时处理两路数据,利用一路麦克风听大声,另一路麦克风听细节,得到最终结果,提高产品的识别效果。

进一步的,所述步骤s103还包括:在采用选择的第一音频数据或第二音频数据进行语音识别之前,先进行语音唤醒。

在本公开的第八个示例性实施例中,提供了一种语音识别装置。图9为本公开实施例语音识别装置的结构示意图。如图9所示,所述语音识别装置包括模式选择预处理单元、工作模式选择单元及语音识别处理单元。

其中,所述模式选择预处理单元用于监测拾音声强数据,根据所述拾音声强数据进行工作场景判断,得到工作场景判断结果;工作模式选择单元连接至所述模式选择预处理单元,所述工作模式选择单元用于根据所述工作场景判断结果,选择至少一个第一麦克风的第一音频数据或至少一个第二麦克风的第二音频数据,其中,所述第一麦克风的aop高于第一预设值,所述第二麦克风的snr高于第二预设值;语音识别处理单元连接至所述工作模式选择单元,用于对选通的麦克风的数据进行语音识别。

进一步的,所述模式选择预处理单元还包括比较单元,用于将监测的所述拾音声强数据与预设切换阈值进行比较,若所述拾音声强数据大于所述预设切换阈值,则判断当前场景为适用所述第一麦克风的第一工作场景;若所述拾音声强数据小于或等于所述预设切换阈值,则判断当前场景为适用所述第二麦克风的第二工作场景。

进一步的,所述语音识别处理单元还包括语音唤醒单元,用于在识别前进行语音唤醒。

在本公开的第八个示例性实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如第六实施例所述的语音识别方法。

为了达到简要说明的目的,上述实施例中任何可作相同应用的技术特征叙述皆并于此,无需再重复相同叙述。

至此,已经结合附图对本公开实施例进行了详细描述。需要说明的是,在附图或说明书正文中,未绘示或描述的实现方式,均为所属技术领域中普通技术人员所知的形式,并未进行详细说明。此外,上述对各元件和方法的定义并不仅限于实施例中提到的各种具体结构、形状或方式,本领域普通技术人员可对其进行简单地更改或替换。

再者,单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。

说明书与权利要求中所使用的序数例如“第一”、“第二”、“第三”等的用词,以修饰相应的元件,其本身并不意味着该元件有任何的序数,也不代表某一元件与另一元件的顺序、或是制造方法上的顺序,该些序数的使用仅用来使具有某命名的一元件得以和另一具有相同命名的元件能做出清楚区分。

此外,除非特别描述或必须依序发生的步骤,上述步骤的顺序并无限制于以上所列,且可根据所需设计而变化或重新安排。并且上述实施例可基于设计及可靠度的考虑,彼此混合搭配使用或与其他实施例混合搭配使用,即不同实施例中的技术特征可以自由组合形成更多的实施例。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本公开也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本公开的内容,并且上面对特定语言所做的描述是为了披露本公开的最佳实施方式。

本公开可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。本公开的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(dsp)来实现根据本公开实施例的相关设备中的一些或者全部部件的一些或者全部功能。本公开还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本公开的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。

本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。并且,在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。

类似地,应当理解,为了精简本公开并帮助理解各个公开方面中的一个或多个,在上面对本公开的示例性实施例的描述中,本公开的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本公开要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,公开方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本公开的单独实施例。

以上所述的具体实施例,对本公开的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本公开的具体实施例而已,并不用于限制本公开,凡在本公开的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

技术特征:

1.一种语音识别方法,其特征在于,包括:

监测拾音声强数据,根据所述拾音声强数据进行工作场景判断,得到工作场景判断结果;

根据所述工作场景判断结果,选择至少一个第一麦克风的第一音频数据或至少一个第二麦克风的第二音频数据,其中,所述第一麦克风的第一参数在第一预设范围,所述第二麦克风的第二参数在第二预设范围;

采用选择的第一音频数据或第二音频数据进行语音识别。

2.根据权利要求1所述的语音识别方法,其特征在于,所述第一麦克风的第一参数aop高于第一预设值,所述第二麦克风的第二参数snr高于第二预设值。

3.根据权利要求1所述的语音识别方法,其特征在于,所述选择至少一个第一麦克风的第一音频数据或至少一个第二麦克风的第二音频数据包括:

发送选通信号,选通至少一个第一麦克风和/或至少一个第二麦克风的数据线路和/或供电电源,接收选通的麦克风的音频数据;或

对接收到的至少一个第一麦克风的第一音频数据和至少一个第二麦克风的第二音频数据进行选择。

4.根据权利要求1所述的语音识别方法,其特征在于,所述根据所述拾音声强数据进行工作场景判断,得到工作场景判断结果包括:

将监测的所述拾音声强数据与预设切换阈值进行比较;

若所述拾音声强数据大于所述预设切换阈值,则判断当前场景为适用所述第一麦克风的第一工作场景;

若所述拾音声强数据小于或等于所述预设切换阈值,则判断当前场景为适用所述第二麦克风的第二工作场景。

5.根据权利要求4所述的语音识别方法,其特征在于,所述根据所述工作场景判断结果,选择至少一个第一麦克风的第一音频数据或至少一个第二麦克风的第二音频数据,包括:

若所述工作场景判断结果为第一工作场景,则发送选通控制信号,选通至少一个第一麦克风,接收至少一个第一麦克风的第一音频数据用于语音识别;

若所述工作场景判断结果为第二工作场景,则发送选通控制信号,选通至少一个第二麦克风,接收至少一个第二麦克风的第二音频数据用于语音识别。

6.根据权利要求4所述的语音识别方法,其特征在于,所述根据所述工作场景判断结果,选择至少一个第一麦克风的第一音频数据或至少一个第二麦克风的第二音频数据包括:

接收至少一个第一麦克风和至少一个第二麦克风,并对至少一个第一麦克风的第一音频数据和至少一个第二麦克风的第二音频数据缓冲存储;

根据所述工作场景判断结果,选择所述第一音频数据或所述第二音频数据用于进行语音识别。

7.根据权利要求6所述的语音识别方法,其特征在于,所述语音识别方法还包括:

根据所述工作场景判断结果,选择所述第一音频数据或所述第二音频数据进行语音识别,获取语音识别结果后,判断所述语音识别结果是否正确,如果所述语音识别结果为正确结果,则将其作为最终语音识别结果;否则,采用另一组音频数据进行语音识别,并综合两种语音识别处理结果进行判断,得到最终语音识别结果。

8.根据权利要求4所述的语音识别方法,其特征在于,所述语音识别方法还包括:

当根据所述工作场景判断结果,选择至少一个第一音频数据或至少一个第二音频数据的其中一组进行语音识别后,继续监测拾音声强数据并进行工作场景判断,若工作场景判断结果发生改变,则采用另一组音频数据进行语音识别。

9.一种语音识别装置,其特征在于,包括:

模式选择预处理单元,所述模式选择预处理单元用于监测拾音声强数据,根据所述拾音声强数据进行工作场景判断,得到工作场景判断结果;

工作模式选择单元,连接至所述模式选择预处理单元,所述工作模式选择单元用于根据所述工作场景判断结果,选择至少一个第一麦克风的第一音频数据或至少一个第二麦克风的第二音频数据,其中,所述第一麦克风的aop高于第一预设值,所述第二麦克风的snr高于第二预设值;

语音识别处理单元,连接至所述工作模式选择单元,用于对选通的麦克风的数据进行语音识别。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的语音识别方法。

技术总结

本公开提供了一种语音识别方法,包括:监测拾音声强数据,根据所述拾音声强数据进行工作场景判断,得到工作场景判断结果;根据所述工作场景判断结果,选择至少一个第一麦克风或至少一个第二麦克风的音频数据,其中,所述第一麦克风的的第一参数在第一设范围,所述第二麦克风的第二参数在第二预设范围;采用选择的麦克风的音频数据进行语音识别。通过工作场景的判断,选择不同参数指标的器件发送的数据进行语音识别,使音频采集电路适用于不同的工作场景。

技术研发人员:高均波;陈孝良;常乐

受保护的技术使用者:北京声智科技有限公司

技术研发日:.10.18

技术公布日:.02.04

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。