1500字范文 > 基于百度语音的货车多人语音识别方法及系统与流程

基于百度语音的货车多人语音识别方法及系统与流程

时间：2019-04-18 10:22:27

本发明涉及语音识别技术领域，特别是一种基于百度语音的货车多人语音识别方法及系统。

背景技术：

随着电商、新零售行业等行业的兴盛与之相应的城配物流行业也迎来了飞速发展。为了货车司机安全行车，一套满足城配货车的语音识别系统迫在眉睫。而语音系统的核心在于语音技术。一般的语音操作软件或者技术，只能满足基本的语音识别语义解析操作，没有满足货车司机这种特殊人群的需求，而且货车送货经常不是一个人，还有搬运等人员一起。因此多人语音环境下，能准确识别司机的操作意图，减少频繁多次语音操作，增加司机行车趣味性，提高行车安全性非常重要。传统的多人语音处理只是简单的识别出货车司机的语音输入，却不能对输入的语音场景做处理。

技术实现要素：

为解决现有技术中存在的问题，本发明提供了一种基于百度语音的货车多人语音识别方法及系统，语音识别快速，支持多人复杂语音场景，对语音场景的后台进行处理，可快速为货车司机匹配到相应的场景，避免重复操作，提高行车安全性。

本发明采用的技术方案是：

一种基于百度语音的货车多人语音识别方法，包括如下步骤：

S1、采集音频信息；

S2、识别采集到的音频信息，如果未能识别出音频信息，则进入步骤S1，如果识别出音频信息，则进入步骤S3；

S3、将识别出的音频信息的语义内容与语义库中的关键词进行关联配对，如果配对成功，则进入步骤S4，如果配对失败，判断所述音频信息是否同时包括环境音频信息与用户音频信息，如果是，则进入步骤S2；如果否，则推送重新输入音频信息到用户界面，进入步骤S1；

S4、将配对成功的关键词与预设的业务场景进行关联匹配；

S5、将关联匹配到的业务场景推送到用户界面。

进一步地，步骤S4，包括如下步骤：

S41、判断匹配的关键词的数量是否大于1，如果是，则进入步骤S42；如果否，则根据预设的业务场景关联匹配对应的业务场景；

S42、统计每个关键词出现的频率；

S43、根据关键词出现的频率，将出现频率最高的关键词与预设的业务场景进行关联匹配。

进一步地，步骤S4中，还包括如下步骤：

S44、判断关联匹配的关键词是否为叠词，如果是，则进入步骤S45；如果否，则进入步骤S41；

S45、删除关键词中重复出现的字，生成新的关键词；

S46、根据新的关键词与预设的业务场景进行关联匹配。

一种基于百度语音的货车多人语音识别系统，包括音频信息采集模块、音频信息识别模块、关键词配对模块、业务场景关联模块和业务场景推送模块，其中：

音频信息采集模块，用于采集音频信息；

音频信息识别模块，用于识别采集到的音频信息，如果未能识别出音频信息，则音频信息采集模块工作，如果识别出音频信息，则关键词配对模块工作；

关键词配对模块，用于将识别出的音频信息的语义内容与语义库中的关键词进行关联配对，如果配对成功，则业务场景关联模块工作，如果配对失败，判断所述音频信息是否同时包括环境音频信息与用户音频信息，如果是，则音频信息识别模块工作；如果否，则推送重新输入音频信息到用户界面，音频信息采集模块工作；

业务场景关联模块，用于将配对成功的关键词与预设的业务场景进行关联匹配；

业务场景推送模块，用于将关联匹配到的业务场景推送到用户界面。

进一步地，所述业务场景关联模块包括关键词数量判断子模块、关键词频率统计子模块和业务场景关联子模块，其中：

关键词数量判断子模块，用于判断匹配的关键词的数量是否大于1，如果是，则关键词频率统计子模块工作；如果否，则根据预设的业务场景关联匹配对应的业务场景；

关键词频率统计子模块，用于统计每个关键词出现的频率；

业务场景关联子模块，用于根据关键词出现的频率，将出现频率最高的关键词与预设的业务场景进行关联匹配。

进一步地，所述业务场景关联模块还包括叠词关键词判断子模块、新关键词生成子模块和新关键词关联子模块，其中：

叠词关键词判断子模块，用于判断关联匹配的关键词是否为叠词，如果是，则新关键词生成子模块工作；如果否，则关键词数量判断子模块工作；

新关键词生成子模块，用于删除关键词中重复出现的字，生成新的关键词；

新关键词关联子模块，用于根据新的关键词与预设的业务场景进行关联匹配。

本发明的有益效果是：

1、对语音场景的后台进行处理，可快速为货车司机匹配到相应的场景，避免重复操作，提高行车安全性。

2、支持多人复杂语音场景，可自动进行降噪处理，提高语音识别效果。

3、采用免费的百度语音做底层语音识别和解析，为司机降低了经济成本。

附图说明

图1为本发明实施例一种基于百度语音的货车多人语音识别方法的流程图；

图2为本发明实施例一种基于百度语音的货车多人语音识别方法中关键词与业务场景匹配的流程图；

图3为本发明实施例一种基于百度语音的货车多人语音识别方法中新关键词与业务场景匹配的流程图；

图4为本发明实施例一种基于百度语音的货车多人语音识别系统的原理图。

附图标记：10、音频信息采集模块；20、音频信息识别模块；30、关键词配对模块；40、业务场景关联模块；401、关键词数量判断子模块；402、关键词频率统计子模块；403、业务场景关联子模块；404、叠词关键词判断子模块；405、新关键词生成子模块；406、新关键词关联子模块；50、业务场景推送模块。

具体实施方式

下面结合附图对本发明的实施例进行详细说明。

实施例

如图1-图3所示，一种基于百度语音的货车多人语音识别方法，包括如下步骤：

S1、采集音频信息；通过音频信息采集模块10采集用户的音频信息。

S2、识别采集到的音频信息，如果未能识别出音频信息，则进入步骤S1，如果识别出音频信息，则进入步骤S3。

S3、将识别出的音频信息的语义内容与语义库中的关键词进行关联配对，如果配对成功，则进入步骤S4，如果配对失败，判断所述音频信息是否同时包括环境音频信息与用户音频信息，如果是，则进入步骤S2；如果否，则推送重新输入音频信息到用户界面，进入步骤S1。

如果语音识别终端处于嘈杂环境中，即有多人同时说话，语音终端对周围所有人说话的声音均进行采集和识别，导致识别出来的语义内容混乱，无法识别出用户的真实意图，无法与语义库中的关键词进行匹配，即采集到的音频信息中包括货车司机发出的用户音频信息、以及周围环境中其他人发出的环境嘈杂音频信息，而用户音频信息的电压幅值和环境嘈杂音频信息的电压幅值均大于语音识别终端能够识别的最低电压幅值。因此，针对该音频信息进行语音识别后，识别出的语义内容很可能与语义库中的内容不匹配，无法被正确响应，如果匹配失败，则判断所述音频信息是否包括环境嘈杂音频信息与用户音频信息，如果所述音频信息包括环境嘈杂音频信息与用户音频信息，则根据采集音频信息时所述音频信息的输入音量、以及采集音频信息的电压幅值，确定下一次识别音频信息的条件，返回步骤S2，启动下一次语音识别过程；如果所述音频信息不包括环境嘈杂音频信息，则提示用户重新输入音频信息，并返回步骤S1，重新采集用户音频信息。

S4、将配对成功的关键词与预设的业务场景进行关联匹配；后台预先定义好货车司机的各种业务场景，如地图、打电话、查看或发送信息或者打开其他一些APP等等，根据语音识别出来的语义内容匹配到的关键词，传递到后台通过AI匹配对应的业务场景。

S5、将关联匹配到的业务场景推送到用户界面。在正常情况下，司机同时只会操作一个场景，因此后台匹配到只有一个场景后，就返回具体场景给用户，执行该场景的下一步逻辑。如果匹配到多个关键词，根据关键词出现的频率将次数多的关键词返回给用户，或者出现叠词，例如打开地地图图，或者打开地图图图等删除关键词中重复出现的字，生成新的关键词返回给用户；根据新的关键词与预设的业务场景进行关联匹配。

对语音场景的后台进行处理，预先定义好货车司机的各种业务场景，如地图、打电话、查看或发送信息或者打开其他一些APP等等，可快速为货车司机匹配到相应的场景，避免重复操作，提高行车安全性；支持多人复杂语音场景，可自动进行降噪处理，提高语音识别效果；采用免费的百度语音做底层语音识别和解析，为司机降低了经济成本。

在其中一个实施例中，如图2所示，步骤S4，包括如下步骤：

S41、判断匹配的关键词的数量是否大于1，如果是，则进入步骤S42；如果否，则根据预设的业务场景关联匹配对应的业务场景；

S42、统计每个关键词出现的频率；

S43、根据关键词出现的频率，将出现频率最高的关键词与预设的业务场景进行关联匹配。

在其中一个实施例中，如图3所示，步骤S4中，还包括如下步骤：

S44、判断关联匹配的关键词是否为叠词，如果是，则进入步骤S45；如果否，则进入步骤S41；

S45、删除关键词中重复出现的字，生成新的关键词；

S46、根据新的关键词与预设的业务场景进行关联匹配。

如图4所示，一种基于百度语音的货车多人语音识别系统，包括音频信息采集模块10、音频信息识别模块20、关键词配对模块30、业务场景关联模块40和业务场景推送模块50，其中：

音频信息采集模块10，用于采集音频信息；

音频信息识别模块20，用于识别采集到的音频信息，如果未能识别出音频信息，则音频信息采集模块10工作，如果识别出音频信息，则关键词配对模块30工作。

关键词配对模块30，用于将识别出的音频信息的语义内容与语义库中的关键词进行关联配对，如果配对成功，则业务场景关联模块40工作，如果配对失败，判断所述音频信息是否同时包括环境音频信息与用户音频信息，如果是，则音频信息识别模块20工作；如果否，则推送重新输入音频信息到用户界面，音频信息采集模块10工作；

如果语音识别终端处于嘈杂环境中，即有多人同时说话，语音终端对周围所有人说话的声音均进行采集和识别，导致识别出来的语义内容混乱，无法识别出用户的真实意图，无法与语义库中的关键词进行匹配，即采集到的音频信息中包括货车司机发出的用户音频信息、以及周围环境中其他人发出的环境嘈杂音频信息，而用户音频信息的电压幅值和环境嘈杂音频信息的电压幅值均大于语音识别终端能够识别的最低电压幅值。因此，针对该音频信息进行语音识别后，识别出的语义内容很可能与语义库中的内容不匹配，无法被正确响应，如果匹配失败，则判断所述音频信息是否包括环境嘈杂音频信息与用户音频信息，如果所述音频信息包括环境嘈杂音频信息与用户音频信息，则根据采集音频信息时所述音频信息的输入音量、以及采集音频信息的电压幅值，确定下一次识别音频信息的条件，启动下一次语音识别过程；如果所述音频信息不包括环境嘈杂音频信息，则提示用户重新输入音频信息，重新采集用户音频信息。

业务场景关联模块40，用于将配对成功的关键词与预设的业务场景进行关联匹配；后台预先定义好货车司机的各种业务场景，如地图、打电话、查看或发送信息或者打开其他一些APP等等，根据语音识别出来的语义内容匹配到的关键词，传递到后台通过AI匹配对应的业务场景。

业务场景推送模块50，用于将关联匹配到的业务场景推送到用户界面。在正常情况下，司机同时只会操作一个场景，因此后台匹配到只有一个场景后，就返回具体场景给用户，执行该场景的下一步逻辑。如果匹配到多个关键词，根据关键词出现的频率将次数多的关键词对应的业务场景返回给用户，或者出现叠词，例如打开地地图图，或者打开地图图图等删除关键词中重复出现的字，生成新的关键词返回给用户；根据新的关键词与预设的业务场景进行关联匹配。

在其中一个实施例中，如图4所示，所述业务场景关联模块40包括关键词数量判断子模块401、关键词频率统计子模块402和业务场景关联子模块403，其中：

关键词数量判断子模块401，用于判断匹配的关键词的数量是否大于1，如果是，则关键词频率统计子模块402工作；如果否，则根据预设的业务场景关联匹配对应的业务场景；

关键词频率统计子模块402，用于统计每个关键词出现的频率；

业务场景关联子模块403，用于根据关键词出现的频率，将出现频率最高的关键词与预设的业务场景进行关联匹配。

在其中一个实施例中，如图4所示，所述业务场景关联模块40还包括叠词关键词判断子模块404、新关键词生成子模块405和新关键词关联子模块406，其中：

叠词关键词判断子模块404，用于判断关联匹配的关键词是否为叠词，如果是，则新关键词生成子模块405工作；如果否，则关键词数量判断子模块401工作；

新关键词生成子模块405，用于删除关键词中重复出现的字，生成新的关键词；

新关键词关联子模块406，用于根据新的关键词与预设的业务场景进行关联匹配。

以上所述实施例仅表达了本发明的具体实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出如果干变形和改进，这些都属于本发明的保护范围。

技术特征：

1.一种基于百度语音的货车多人语音识别方法，其特征在于，包括如下步骤：

S1、采集音频信息；

S2、识别采集到的音频信息，如果未能识别出音频信息，则进入步骤S1，如果识别出音频信息，则进入步骤S3；

S4、将配对成功的关键词与预设的业务场景进行关联匹配；

S5、将关联匹配到的业务场景推送到用户界面。

2.根据权利要求1所述的基于百度语音的货车多人语音识别方法，其特征在于，步骤S4，包括如下步骤：

S41、判断匹配的关键词的数量是否大于1，如果是，则进入步骤S42；如果否，则根据预设的业务场景关联匹配对应的业务场景；

S42、统计每个关键词出现的频率；

S43、根据关键词出现的频率，将出现频率最高的关键词与预设的业务场景进行关联匹配。

3.根据权利要求2所述的基于百度语音的货车多人语音识别方法，其特征在于，步骤S4中，还包括如下步骤：

S44、判断关联匹配的关键词是否为叠词，如果是，则进入步骤S45；如果否，则进入步骤S41；

S45、删除关键词中重复出现的字，生成新的关键词；

S46、根据新的关键词与预设的业务场景进行关联匹配。

4.一种基于百度语音的货车多人语音识别系统，其特征在于，包括音频信息采集模块、音频信息识别模块、关键词配对模块、业务场景关联模块和业务场景推送模块，其中：

音频信息采集模块，用于采集音频信息；

业务场景关联模块，用于将配对成功的关键词与预设的业务场景进行关联匹配；

业务场景推送模块，用于将关联匹配到的业务场景推送到用户界面。

5.根据权利要求4所述的基于百度语音的货车多人语音识别系统，其特征在于，所述业务场景关联模块包括关键词数量判断子模块、关键词频率统计子模块和业务场景关联子模块，其中：

关键词频率统计子模块，用于统计每个关键词出现的频率；

业务场景关联子模块，用于根据关键词出现的频率，将出现频率最高的关键词与预设的业务场景进行关联匹配。

6.根据权利要求5所述的基于百度语音的货车多人语音识别系统，其特征在于，所述业务场景关联模块还包括叠词关键词判断子模块、新关键词生成子模块和新关键词关联子模块，其中：

叠词关键词判断子模块，用于判断关联匹配的关键词是否为叠词，如果是，则新关键词生成子模块工作；如果否，则关键词数量判断子模块工作；

新关键词生成子模块，用于删除关键词中重复出现的字，生成新的关键词；

新关键词关联子模块，用于根据新的关键词与预设的业务场景进行关联匹配。

技术总结

本发明公开了一种基于百度语音的货车多人语音识别方法及系统，该方法包括如下步骤：采集音频信息；识别采集到的音频信息；将识别出的音频信息的语义内容与语义库中的关键词进行关联配对；将配对成功的关键词与预设的业务场景进行关联匹配；将关联匹配到的业务场景推送到用户界面。本发明对语音场景的后台进行处理，预先定义好货车司机的各种业务场景，可快速为货车司机匹配到相应的场景，避免重复操作，提高行车安全性；支持多人复杂语音场景，可自动进行降噪处理，提高语音识别效果；采用免费的百度语音做底层语音识别和解析，为司机降低了经济成本。

技术研发人员：雷云红;李忠波

受保护的技术使用者：四川驹马科技有限公司

技术研发日：.06.05

技术公布日：.09.20

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。