1500字范文 > 人机对话的输出控制方法装置电子设备及存储介质与流程

人机对话的输出控制方法装置电子设备及存储介质与流程

时间：2019-10-28 14:24:01

本发明涉及人工智能

技术领域：

信息，尤其涉及一种人机对话的输出控制方法、装置、电子设备及存储介质。

背景技术：

：随着科学技术的迅猛发展，智能设备已经拥有了强大的处理能力，使得智能设备在一定程度上能够像人类一样理解自然语言，例如，基于实时语音转写(Real-timeASR)、NLP(NaturalLanguageProcessing，自然语言处理)等技术，能过实时对用户输入的语音进行处理，并输出符合人类自然语言的响应数据，从而实现了人机交互。现有的交互方式是，当智能设备接收到用户输入的多个句子时，会顺序输出这多个句子对应的响应数据；或者，智能设备在接收用户输入的新句子时，会打断正在输出的响应数据，输出新句子的响应数据。然而，由于用户说话时的表述可能缺乏规范性，例如连续多句话表达同一语义、更改之前的话等，如：“你多大了？你几岁了？”、“厕所在哪？怎么走？”、“带我去休息室。算了，还是去咖啡厅吧。”等类似不规范的表述，此时，如果顺序输出每个句子对应的响应数据，就会显得啰嗦并且浪费时间，导致智能设备输出响应数据时给用户带来机械和生硬的感觉，不够拟人化。因此，现有的交互方式中，输出响应数据的控制方式较为单一、程式化，导致智能设备无法像人类一样自然流畅地进行对话，降低了用户体验。技术实现要素：本发明实施例提供一种人机对话的输出控制方法、装置、电子设备及存储介质，以解决现有技术中输出响应数据的控制方式较为单一、程式化的问题。第一方面，本发明一实施例提供了一种人机对话的输出控制方法，包括：实时对智能设备采集到的音频流数据进行语音处理；根据语音处理结果，确定针对所述音频流数据的响应数据；确定所述响应数据对应的执行顺序标签；控制所述智能设备根据所述执行顺序标签执行所述响应数据。可选地，所述确定所述响应数据对应的执行顺序标签，具体包括：确定所述响应数据的优先级；基于所述响应数据的优先级以及所述响应数据之前已确定出的响应数据的优先级，确定所述响应数据对应的执行顺序标签。可选地，所述基于所述响应数据的优先级以及所述响应数据之前已确定出的响应数据的优先级，确定所述响应数据对应的执行顺序标签，具体包括：若所述响应数据对应的音频流数据与所述已确定出的响应数据对应的音频流数据属于相同VAD检测得到的音频流数据，根据所述响应数据的优先级和所述已确定出的响应数据的优先级，按照优先级从高到低的排列顺序，确定所述响应数据在所述已确定出的响应数据之间的排列位置；根据所述响应数据的排列位置，确定所述响应数据对应的插入标签，并将所述插入标签作为所述响应数据对应的执行顺序标签，所述插入标签用于指示所述插入标签所标识的响应数据在所述智能设备已接收到的响应数据之间的执行顺序。可选地，所述确定所述响应数据的优先级，具体包括：基于所述响应数据对应的音频流数据的语义识别结果和/或所述智能设备采集到的视觉信息，确定所述响应数据的优先级；或者，根据所述响应数据对应的音频流数据以及所述已确定出的响应数据对应的音频流数据的时间信息，确定所述响应数据的优先级。可选地，所述确定所述响应数据对应的执行顺序标签，具体包括：若所述响应数据对应的音频流数据与上一次确定出的响应数据对应的音频流数据属于不同VAD检测得到的音频流数据，确定所述响应数据对应的执行顺序标签为打断标签，所述打断标签用于指示所述打断标签所标识的响应数据能够打断所述智能设备当前正在执行的响应数据。可选地，所述确定所述响应数据对应的执行顺序标签，具体包括：基于所述响应数据以及所述响应数据之前已确定出的响应数据，确定所述响应数据对应的执行顺序标签。可选地，所述基于所述响应数据以及所述响应数据之前已确定出的响应数据，确定所述响应数据对应的执行顺序标签，具体包括：若所述响应数据对应的音频流数据与所述已确定出的响应数据对应的音频流数据属于相同VAD检测得到的音频流数据，且所述响应数据与所述已确定出的响应数据中的至少一个响应数据相同，确定所述响应数据对应的执行顺序标签为跳过标签，所述跳过标签用于指示所述智能设备在执行响应数据时跳过所述跳过标签所标识的响应数据。可选地，所述基于所述响应数据以及所述响应数据之前已确定出的响应数据，确定所述响应数据对应的执行顺序标签，具体包括：若确定所述响应数据对应的音频流数据的语义识别结果是对所述已确定出的响应数据中的任一响应数据对应的音频流数据的语义识别结果的补充或纠正，确定所述响应数据对应的执行顺序标签为置换标签，所述置换标签用于指示所述智能设备将所述置换标签中的信息标识对应的响应数据替换为所述置换标签所标识的响应数据。可选地，还包括：若所述响应数据对应的音频流数据的语义识别结果中具有槽位值的槽位项与所述已确定出的响应数据中的任一响应数据对应的音频流数据的语义识别结果中缺失槽位值的槽位项相同，确定所述响应数据对应的音频流数据的语义识别结果是对所述任一响应数据对应的音频流数据的语义识别结果的补充；或者，若所述响应数据对应的音频流数据的语义识别结果中包含否定意图，且所述响应数据对应的音频流数据的语义识别结果与所述已确定出的响应数据中的任一响应数据对应的音频流数据的语义识别结果中同一槽位项的槽位值不同，确定所述响应数据对应的音频流数据的语义识别结果是对所述任一响应数据对应的音频流数据的语义识别结果的纠正。第二方面，本发明一实施例提供了一种人机对话的输出控制方法，包括：将采集到的音频流数据发送给服务器；接收所述服务器发送的基于所述音频流数据得到的响应数据和所述响应数据对应的执行顺序标签；根据所述执行顺序标签，执行所述响应数据。可选地，所述根据所述执行顺序标签，执行所述响应数据，具体包括：若所述执行顺序标签为插入标签，根据所述插入标签指示的所述响应数据在所述智能设备已接收到的响应数据之间的执行顺序，执行所述响应数据。可选地，所述根据所述执行顺序标签，执行所述响应数据，具体包括：若所述执行顺序标签为打断标签，终止所述智能设备当前正在执行的响应数据，并执行所述打断标签所标识的响应数据。可选地，所述根据所述执行顺序标签，执行所述响应数据，具体包括：若所述执行顺序标签为跳过标签，在执行响应数据时跳过所述跳过标签所标识的响应数据。可选地，所述根据所述执行顺序标签，执行所述响应数据，具体包括：若所述执行顺序标签为置换标签，将已接收到的响应数据中与所述置换标签中的信息标识对应的响应数据替换为所述置换标签所标识的响应数据。第三方面，本发明一实施例提供了一种人机对话的输出控制装置，包括：语音处理模块，用于实时对智能设备采集到的音频流数据进行语音处理；响应数据确定模块，用于根据语音处理结果，确定针对所述音频流数据的响应数据；标签确定模块，用于确定所述响应数据对应的执行顺序标签；控制模块，用于控制所述智能设备根据所述执行顺序标签执行所述响应数据。可选地，所述标签确定模块具体用于：确定所述响应数据的优先级；基于所述响应数据的优先级以及所述响应数据之前已确定出的响应数据的优先级，确定所述响应数据对应的执行顺序标签。可选地，所述标签确定模块具体用于：若所述响应数据对应的音频流数据与所述已确定出的响应数据对应的音频流数据属于相同VAD检测得到的音频流数据，根据所述响应数据的优先级和所述已确定出的响应数据的优先级，按照优先级从高到低的排列顺序，确定所述响应数据在所述已确定出的响应数据之间的排列位置；根据所述响应数据的排列位置，确定所述响应数据对应的插入标签，并将所述插入标签作为所述响应数据对应的执行顺序标签，所述插入标签用于指示所述插入标签所标识的响应数据在所述智能设备已接收到的响应数据之间的执行顺序。可选地，所述标签确定模块具体用于：基于所述响应数据对应的音频流数据的语义识别结果和/或所述智能设备采集到的视觉信息，确定所述响应数据的优先级；或者，根据所述响应数据对应的音频流数据以及所述已确定出的响应数据对应的音频流数据的时间信息，确定所述响应数据的优先级。可选地，所述标签确定模块具体用于：若所述响应数据对应的音频流数据与上一次确定出的响应数据对应的音频流数据属于不同VAD检测得到的音频流数据，确定所述响应数据对应的执行顺序标签为打断标签，所述打断标签用于指示所述打断标签所标识的响应数据能够打断所述智能设备当前正在执行的响应数据。可选地，所述标签确定模块具体用于：基于所述响应数据以及所述响应数据之前已确定出的响应数据，确定所述响应数据对应的执行顺序标签。可选地，所述标签确定模块具体用于：若所述响应数据对应的音频流数据与所述已确定出的响应数据对应的音频流数据属于相同VAD检测得到的音频流数据，且所述响应数据与所述已确定出的响应数据中的至少一个响应数据相同，确定所述响应数据对应的执行顺序标签为跳过标签，所述跳过标签用于指示所述智能设备在执行响应数据时跳过所述跳过标签所标识的响应数据。可选地，所述标签确定模块具体用于：若确定所述响应数据对应的音频流数据的语义识别结果是对所述已确定出的响应数据中的任一响应数据对应的音频流数据的语义识别结果的补充或纠正，确定所述响应数据对应的执行顺序标签为置换标签，所述置换标签用于指示所述智能设备将所述置换标签中的信息标识对应的响应数据替换为所述置换标签所标识的响应数据。可选地，所述标签确定模块还用于：若所述响应数据对应的音频流数据的语义识别结果中具有槽位值的槽位项与所述已确定出的响应数据中的任一响应数据对应的音频流数据的语义识别结果中缺失槽位值的槽位项相同，确定所述响应数据对应的音频流数据的语义识别结果是对所述任一响应数据对应的音频流数据的语义识别结果的补充；或者，若所述响应数据对应的音频流数据的语义识别结果中包含否定意图，且所述响应数据对应的音频流数据的语义识别结果与所述已确定出的响应数据中的任一响应数据对应的音频流数据的语义识别结果中同一槽位项的槽位值不同，确定所述响应数据对应的音频流数据的语义识别结果是对所述任一响应数据对应的音频流数据的语义识别结果的纠正。第四方面，本发明一实施例提供了一种人机对话的输出控制装置，包括：数据发送模块，用于将采集到的音频流数据发送给服务器；数据接收模块，用于接收所述服务器发送的基于所述音频流数据得到的响应数据和所述响应数据对应的执行顺序标签；执行模块，用于根据所述执行顺序标签，执行所述响应数据。可选地，所述执行模块具体用于：若所述执行顺序标签为插入标签，根据所述插入标签指示的所述响应数据在所述智能设备已接收到的响应数据之间的执行顺序，执行所述响应数据。可选地，所述执行模块具体用于：若所述执行顺序标签为打断标签，终止所述智能设备当前正在执行的响应数据，并执行所述打断标签所标识的响应数据。可选地，所述执行模块具体用于：若所述执行顺序标签为跳过标签，在执行响应数据时跳过所述跳过标签所标识的响应数据。可选地，所述执行模块具体用于：若所述执行顺序标签为置换标签，将已接收到的响应数据中与所述置换标签中的信息标识对应的响应数据替换为所述置换标签所标识的响应数据。第五方面，本发明一实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行计算机程序时实现上述第一方面或第二方面中的任一种方法的步骤。第六方面，本发明一实施例提供了一种计算机可读存储介质，其上存储有计算机程序指令，该计算机程序指令被处理器执行时实现上述第一方面或第二方面中的任一种方法的步骤。第七方面，本发明一实施例提供了一种计算机程序产品，所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时实现上述第一方面或第二方面中的任一种方法的步骤。本发明实施例提供的技术方案，对智能设备采集到的音频流数据进行语音处理，根据语音处理结果，确定针对音频流数据的响应数据，然后，确定响应数据对应的执行顺序标签，从而能够便捷地控制智能设备根据执行顺序标签所指示的执行顺序，执行服务器发送的响应数据，使得执行响应数据的控制方式变得更加灵活，能够针对用户连续输入的音频流数据，有选择性地调整执行音频流数据中包含的多个句子对应的响应数据的先后顺序，使得智能设备能够以接近人类自然交互的方式对用户的输入作出响应，使得人机交互过程更加自然。附图说明为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，显而易见地，下面所介绍的附图仅仅是本发明的一些实施例，对于本领域信息普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。图1为本发明实施例提供的人机对话的输出控制方法的应用场景示意图；图2为本发明一实施例提供的人机对话的输出控制方法的流程示意图；图3为本发明一实施例提供的基于响应数据的优先级确定执行顺序标签的方法的流程示意图；图4为本发明一实施例提供的人机对话的输出控制方法的流程示意图；图5为本发明一实施例提供的人机对话的输出控制装置的结构示意图；图6为本发明一实施例提供的人机对话的输出控制装置的结构示意图；图7为本发明一实施例提供的电子设备的结构示意图。具体实施方式为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。为了方便理解，下面对本发明实施例中涉及的名词进行解释：模态(modality)，用通俗的话说，就是“感官”，多模态即将多种感官融合。机器人操作系统将机器人与人的交互模式定义为“多模态交互”，即通过文字、语音、视觉、动作、环境等多种方式进行人机交互，充分模拟人与人之间的交互方式。领域(domain)，是指同一类型的数据或者资源，以及围绕这些数据或资源提供的服务，比如引领、百科、闲聊、天气、音乐、火车票等。语音活动检测(VoiceActivityDetection，VAD)，又称语音端点检测，是指在噪声环境中检测语音的存在与否，通常用于语音编码、语音增强等语音处理系统中，起到降低语音编码速率、节省通信带宽、减少移动设备能耗、提高识别率等作用。早先具有代表性的VAD方法有ITU-T的G.729AnnexB。目前，语音活动检测技术已广泛应用到语音识别过程中，通过语音活动检测技术检测出一段音频中真正包含用户语音的部分，从而消除音频中静音的部分，仅对包含用户语音的部分音频进行识别处理。语素，是语言中最小的音义结合体，也就是说一个语言单位必须同时满足三个条件——“最小、有音、有义”才能被称作语素，尤其是“最小”和“有义”。实时语音转写(Real-timeASR)，基于深度全序列卷积神经网络框架，通过WebSocket协议，建立应用与语言转写核心引擎的长连接，能够将音频流数据实时转换成文字流数据，实现用户边说话边生成文本，一般按照语素为最小单位，输出识别出的临时识别结果。例如，采集的音频流为：“今”-“天”-“天”-“气”-“怎”-“么”-“样”，按照音频流的顺序进行识别，先输出临时识别结果“今天”，然后，输出临时识别结果“今天天”，以此类推，直到对整段音频流识别完毕，得到最终识别结果“今天天气怎么样”。实时语音转写技术还能够基于后续的音频流以及对上下文的语义理解，对之前输出的临时识别结果进行智能纠错，保证最终识别结果的准确性，也就是说，基于音频流实时输出的临时识别结果，是随着时间不断变化，例如，第一次输出的临时识别结果为“金”，第二次输出的临时识别结果被纠正为“今天”，第三次输出的临时识别结果可能为“今天田”，第四次输出的临时识别结果又被纠正为“今天天气”，以此类推，通过不断的识别、纠正，得到准确的最终识别结果。生成模型(generativemodel)，是指能够随机生成观测数据的模型，尤其是在给定某些隐含参数的条件下。生成模型给观测值和标注数据序列指定一个联合概率分布。在机器学习中，生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样)，也可以用来建立变量间的条件概率分布。条件概率分布可以由生成模型根据贝叶斯定理形成。附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。现有的交互方式是，当智能设备接收到用户输入的多个句子时，会顺序输出这多个句子对应的响应数据；或者，智能设备在接收用户输入的新句子时，会打断正在执行的响应数据，执行新输入的句子对应的响应数据。然而，由于用户说话时的表述可能缺乏规范性，例如，连续多句话表达同一语义、更改之前的话等，如：“你多大了？你几岁了？”、“厕所在哪？怎么走？”、“带我去休息室。算了，还是去咖啡厅吧。”等类似不规范的表述，此时，如果顺序执行每个句子对应的响应数据，就会显得啰嗦并且浪费时间，导致智能设备执行响应数据时给用户带来机械和生硬的感觉，不够拟人化。因此，现有的交互方式中，输出响应数据的控制方式较为单一、程式化，导致智能设备无法像人类一样自然流畅地进行对话，降低了用户体验。为此，本发明的发明人考虑到，由服务器对智能设备采集到的音频流数据进行语音处理，根据语音处理结果，确定针对音频流数据的响应数据，然后，确定响应数据对应的执行顺序标签，从而能够便捷地控制智能设备根据执行顺序标签所指示的执行顺序，执行服务器发送的响应数据，使得执行响应数据的控制方式变得更加灵活，能够针对用户连续输入的音频流数据，有选择性地调整执行音频流数据中包含的多个句子对应的响应数据的先后顺序，使得智能设备能够以接近人类自然交互的方式对用户的输入作出响应，使得人机交互过程更加自然。在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。首先参考图1，其为本发明实施例提供的人机对话的输出控制方法的应用场景示意图。用户10与智能设备11进行交互过程中，智能设备11会持续采集周围的声音，并以音频流数据的形式持续上报给服务器12，音频流数据中除了包含用户10的说话声，也可能包含智能设备11周围的环境声或其他用户的说话声。服务器12对智能设备11持续上报的音频流数据依次进行语音识别处理和语义识别处理，根据语义识别结果确定出相应的响应数据，并控制智能设备11执行该响应数据，以向用户作出反馈。这种应用场景下，智能设备11和服务器12之间通过网络进行通信连接，该网络可以为局域网、广域网等。智能设备11可以为智能音箱、机器人等，也可以为便携设备(例如：手机、平板、笔记本电脑等)，还可以为个人电脑(PC，PersonalComputer)。服务器12可以为任何能够提供语音识别服务的一台服务器、若干台服务器组成的服务器集群或云计算中心。下面结合图1所示的应用场景，对本发明实施例提供的技术方案进行说明。参考图2，本发明实施例提供一种人机对话的输出控制方法，应用于图1所示的服务器侧，包括以下步骤：S201、实时对智能设备采集到的音频流数据进行语音处理。本发明实施例中，当用户开始与智能设备对话后，智能设备会持续采集智能设备周围的声音，转换成音频流数据后发送给服务器。具体实施时，服务器可利用实时语音转写等技术，对持续的音频流数据进行语音识别，得到语音识别结果，然后对语音识别结果进行预测、语义识别等处理得到语音处理结果。具体地，可基于预设的语料库对语音识别结果进行预测，得到语音识别结果对应的预测文本，基于预测文本进行语义识别，得到语义识别结果，作为最终的语音处理结果。其中，语料库中预先存储有大量具有完整语义的文本(即语料)，例如，“今天天气怎么样”、“最近上映了哪些电影”、“介绍一下青花瓷”等等。需要说明的是，本发明实施例的方法的应用场景不限于上述实时预测的语音处理场景，还可以应用于现有的任何一种语音处理场景，例如，服务器获取智能设备发送采集完毕的一段音频流数据，对音频流数据进行语音识别，得到语音识别结果，然后对语音识别结果进行语义识别等处理得到语音处理结果。S202、根据语音处理结果，确定针对音频流数据的响应数据。本发明实施例中所指的响应数据不限于文本数据、音频数据、图像数据、视频数据、语音播报、或控制指令等，其中，控制指令包括但不限于：控制智能设备显示表情的指令、控制智能设备的动作部件运动的指令(如引领、导航、拍照、跳舞等)等。具体实施时，可预先为语料库中的每个语料配置至少一个预设响应数据，当需要根据预测文本确定响应数据时，只需要根据对应关系，获取与预测文本对应的预设响应数据，将该预设响应数据作为预测文本对应的语音处理结果的响应数据，即为针对音频流数据的响应数据。具体实施时，还可以对预测文本进行语义识别，得到预测文本的语义识别结果，根据预测文本的语义识别结果确定响应数据，作为针对音频流数据的响应数据。S203、确定响应数据对应的执行顺序标签。本发明实施例中的执行顺序标签用于指示执行顺序标签所标识的响应数据在智能设备已接收到的响应数据之间的执行顺序，即智能设备按照接收到的响应数据对应的执行顺序标签所指示的执行顺序，执行接收到的响应数据。S204、控制智能设备根据执行顺序标签执行响应数据。具体实施时，服务器将响应数据和响应数据对应的执行顺序标签发送给智能设备，智能设备按照根据执行顺序标签所指示的执行顺序，执行接收到的响应数据。本发明实施例的方法，在确定出针对用户实时输入的音频流数据的响应数据后，确定出响应数据对应的执行顺序标签，从而能够便捷地控制智能设备根据执行顺序标签所指示的执行顺序，执行服务器发送的响应数据。与现有技术相比，本发明实施例提供的执行响应数据的控制方式更加灵活，能够针对用户连续输入的音频流数据，有选择性地调整执行音频流数据中包含的多个句子对应的响应数据的先后顺序，使得智能设备能够以接近人类自然交互的方式对用户的输入作出响应，使得人机交互过程更加自然。作为一种可能的实施方法，如图3所示，上述步骤S203具体包括如下步骤：S301、确定响应数据的优先级。S302、基于响应数据的优先级以及响应数据之前已确定出的响应数据的优先级，确定响应数据对应的执行顺序标签。具体实施时，可采用如下方式确定响应数据的优先级：第一种方式、基于响应数据对应的音频流数据的语义识别结果，确定响应数据的优先级。本申请实施例中的响应数据对应的音频流数据的语义识别结果中包括领域信息、意图信息以及槽位信息等。具体地，可基于响应数据对应的音频流数据的语义识别结果中的领域信息的优先级，确定该响应数据的优先级。举例说明，可基于响应数据对应的领域信息确定响应数据的优先级，假设用户输入的句子为“这个是什么？介绍下青花瓷。”，识别出“这个是什么”对应的领域信息为问询领域，“介绍下青花瓷”对应的领域信息为讲解领域，由于讲解领域的优先级要高于问询领域，则确定“介绍下青花瓷”对应的响应数据的优先级要高于“这个是什么？”对应的优先级，优先输出“介绍下青花瓷”对应的响应数据。具体实施时，领域信息对应的优先级可以是预先配置好的，例如，可针对智能设备的功能为每个领域信息配置优先级，如，针对引领机器人，可设置问路领域的优先级最高，针对讲解机器人，可设置讲解领域的优先级最高。具体实施时，还可以动态调整领域信息对应的优先级，例如，可根据智能设备当前所处的模式确定各领域的优先级，如智能设备已进入讲解员模式，则确定讲解领域的优先级最高。第二种方式、基于智能设备采集到的视觉信息，确定响应数据的优先级。本发明实施例中的视觉信息是指智能设备识别通过摄像头、光传感器等装置采集到的信息，进一步地，结合图像处理、人脸识别、虹膜识别等技术，视觉信息可包括人脸信息、表情信息、动作信息、场景信息、虹膜信息、光感信息等。基于视觉信息可确定用户信息，具体包括用户的姓名、性别、年龄等信息。具体地，可以利用人脸识别技术分析采集到的图像中包含的用户数量，以及每个用户的用户信息，并确定当前与智能设备进行交互的用户人数，基于用户人数可确定当前交互模式是多人交互模式，还是单人交互模式。基于视觉信息确定的用户信息，确定响应数据的优先级，例如，用户输入的是“女厕所在哪？男厕所怎么走？”，若基于多模态输入信息确定用户是男生，则确定“男厕所怎么走？”对应的响应数据的优先级要高于“女厕所在哪？”对应的响应数据的优先级。基于视觉信息还可以识别当前场景中的用户的数量以及每个用户的交互意图等信息。具体地，可以利用人脸识别技术分析采集到的图像中包含的用户数量，当存在多个用户时，可分析每个用户的交互意图，根据用户的交互意图的强烈程度，确定响应数据的优先级，交互意图越强烈，则基于该用户对应的音频流数据确定的响应数据的优先级越高，这样可以很好的应对多用户的场景或者是声音嘈杂的环境。具体实施时，可综合人脸信息、表情信息、动作信息确定交互意图，例如，当用户的脸朝向智能设备且用户的嘴唇在动时，表明用户与智能设备进行交互的期望较高，当用户的脸朝向其他方向或者用户的嘴唇不动时，表明用户与智能设备进行交互的期望较低，用户长时间望向智能设备的屏幕时也表明用户与智能设备进行交互的期望较高。在此基础上，还可以结合交互距离确定用户的交互意图，例如，当用户距离智能设备较远时，表明用户与智能设备交互的期望较低，当用户距离智能设备较近时，表明用户与智能设备进行交互的期望较高。可综合上述各种信息确定用户与智能设备进行交互的期望值，当期望值高于预设的期望阈值时，可确定用户期望与智能设备及进行交互，否则确定用户不希望与智能设备进行交互。具体实施时，可利用上述方法逐个分析采集到的图像中的多个用户，以在包含多个用户的场景下，精准定位出哪些用户期望与智能设备进行交互，从而仅针对这些用户输入的音频流数据进行处理，过滤掉其他用户的语音。具体实施时，还可以结合第一种方式和第二种方式，确定响应数据的优先级，具体实施方式不再赘述。第三种方式、根据响应数据对应的音频流数据以及已确定出的响应数据对应的音频流数据的时间信息，确定响应数据的优先级。本发明实施例中，音频流数据的时间信息可以是服务器接收到音频流数据的时间。具体地，接收到音频流数据的时间越早，基于该音频流数据确定出的响应数据的优先级越高，反之，接收到音频流数据的时间越晚，基于该音频流数据确定出的响应数据的优先级越低。具体实施时，当通过上述第一种方式和第二种方式无法确定出响应数据的优先级，则按照响应数据对应的音频流数据的先后顺序，确定响应数据的优先级。具体实施时，针对基于属于相同VAD检测到的音频流数据确定出的多个响应数据，可按照确定出的响应数据的时间信息的先后顺序，确定这多个响应数据的优先级，即先执行先确定出的响应数据，再执行后确定出的响应数据。具体实施时，可将上述确定响应数据的优先级的方式设置为默认的执行方式，即在没有选择上述第一种方式或第二种方式时，默认选择上述方式。具体实施时，可通过如下方式基于响应数据的优先级以及响应数据之前已确定出的响应数据的优先级，确定响应数据对应的执行顺序标签：若响应数据对应的音频流数据与已确定出的响应数据对应的音频流数据属于相同VAD检测得到的音频流数据，根据响应数据的优先级和已确定出的响应数据的优先级，按照优先级从高到低的排列顺序，确定响应数据在已确定出的响应数据之间的排列位置；根据响应数据的排列位置，确定响应数据对应的插入标签，并将插入标签作为响应数据对应的执行顺序标签，插入标签用于指示插入标签所标识的响应数据在智能设备已接收到的响应数据之间的执行顺序。需要说明的是，若响应数据对应的音频流数据与已确定出的响应数据对应的音频流数据属于相同VAD检测得到的音频流数据，则表明响应数据对应的音频流数据和已确定出的响应数据对应的音频流数据均属于用户连续输入的一段音频流数据，例如，用户连续输入“星际穿越这部电影什么时候上映呀？导演是谁呀？主要讲啥？”此时，只需要按照一定的顺序逐一执行基于这段音频流数据确定出的响应数据，以便智能设备能向自然人聊天一样对用户输入的内容一一作出响应。具体实施时，已确定出的响应数据可以包括当前这一响应数据之前确定出的预设数量个响应数据，或者当前这一响应数据之前的预设时间段内确定出的响应数据。本发明实施例中的预设数量可根据实际情况确定，例如预设数量可以是1、2或5等。智能设备会根据执行顺序标签将接收到响应数据存储到输出队列中对应的位置，并顺序执行输出队列中的响应数据，实际应用中，由于智能设备会及时执行接收到的响应数据，因此，智能设备的输出队列中响应数据的数量通常较少，例如一般只会有1条或2条等待执行的响应数据，因此，预设数量可以取4或5等较小的数。本发明实施例中的服务器可存储预设时间段内的历史响应数据，本发明实施例中的历史响应数据即是已发送给智能设备的响应数据。本发明实施例中的预设时间段可根据实际情况预先设置，例如，预设时间段可以是20秒、30秒或1分钟等，假设预设时间段为20秒，则仅获取20秒内确定出的响应数据，确定获取的响应数据对应的音频流数据与当前这一响应数据对应的音频流数据是否属于相同VAD检测得到的音频流数据。具体实施时，还可以根据已发确定出的响应数据动态确定预设时间段，示例的，可根据已确定出的响应数据估算智能设备执行完这些响应数据的预估时间，根据预估时间确定预设时间段。具体实施时，每确定出一个响应数据，可将该响应数据添加到已发送列表中，且已发送列表中的响应数据按照其对应的优先级从高到低的顺序进行排列，即优先级越高的响应数据在已发送列表中的排序越靠前。响应数据添加到已发送列表中后，根据响应数据在已发送列表中的排列位置，确定响应数据对应的插入标签。示例地，插入标签可以包括已发送列表中排在响应数据之前的响应数据的标识信息，这样，智能设备可将插入标签所标识的响应数据添加到输出队列中与该插入标签中的标识信息所对应的响应数据之后，其中，信息标识用于唯一标识对应的响应数据。当然，插入标签也可以包括已发送列表中排在响应数据之后的响应数据的标识信息，这样，智能设备可将插入标签所标识的响应数据添加到输出队列中与该插入标签中的标识信息所对应的响应数据之前。举例说明，如表1.1所示，已发送列表中已经存储有响应数据A、响应数据B以及响应数据C，响应数据A的优先级为“4”，响应数据B的优先级为“2”，响应数据C的优先级为“1”，新生成的响应数据D的优先级为“3”，则将响应数据添加到已发送列表中响应数据A之后，得到如表1.2所示的已发送列表，然后，获取表1.2中排在响应数据D之前的响应数据A的标识信息，将响应数据A的标识信息添加到响应数据D对应的插入标签中。智能设备在收到响应数据D以及对应的插入标签后，根据插入标签中响应数据A的标识信息，在输出队列中找到响应数据A的存储位置，将响应数据D插入到输出队列中响应数据A之后。表1.1优先级响应数据4A2B1C表1.2优先级响应数据4A3D2B1C具体实施时，当已发送列表中有多个响应数据的优先级相同时，可按照响应数据对应的音频流数据的时间信息，对优先级相同的响应数据进行排序，即时间信息越早的响应数据排在前，时间信息越晚的响应数据排在后。实际应用中，智能设备中的输出队列仅用于存储接收到的且未执行的响应数据，即已执行完的响应数据以及正在执行的响应数据不会存储在输出队列中。为了降低服务器与智能设备间数据传输量，智能设备不会将输出队列中响应数据的执行进度同步给服务器，无法保证智能设备的输出队列与服务器中的已发送列表完全一致，因此，存在插入标签中的标识信息对应的响应数据已经被输出的情况，此时无法从输出队列中查找到对应的响应数据。针对上述无法在输出队列中查找到插入标签中的标识信息对应的响应数据的情况，智能设备可直接将该响应数据插入到输出队列的队首。本发明实施例的方法，能够响应数据对应的音频流数据的语义识别结果、智能设备采集到的视觉信息以及响应数据对应的音频流数据的时间信息，确定响应数据的优先级，从而准确地确定出响应数据在已确定的响应数据中所处的排列位置，从而确定出响应数据对应的插入标签，使得智能设备能够按照插入标签所指示的执行顺序执行接收到的各个响应数据，使得智能设备执行响应数据的方法更加符合人类对话的习惯，从而使人机对话更加自然流畅。实际应用中，若响应数据对应的音频流数据与上一次确定出的响应数据对应的音频流数据属于不同VAD检测得到的音频流数据，则表明用户在输入上一次确定出的响应数据对应的音频流数据之后，间隔了一定时间后才输入了当前确定出的响应数据对应的音频流数据，基于人类的说话习惯，最后说的话一般是用户希望及时得到反馈的，尤其是最后的话与之前说的话之间存在一定的时间间隔。例如，用户先输入了“有什么好看的电影推荐吗？”，间隔一段时间后，又输入了“星际穿越怎么样？”，表明用户经过一段时间的思考想看电影《星际穿越》，此时，智能设备只需要针对“星际穿越怎么样？”作出响应即可，而不需要对“有什么好看的电影推荐吗？”作出回应。实际应用中，当用户A说完一段时间后，用户B又输入音频流数据，此时，智能设备可以仅对用户B输入的音频流数据作出响应。为此，作为一种可能的实施方式，步骤S203具体包括：若响应数据对应的音频流数据与上一次确定出的响应数据对应的音频流数据属于不同VAD检测得到的音频流数据，确定响应数据对应的执行顺序标签为打断标签，打断标签用于指示打断标签所标识的响应数据能够打断智能设备当前正在执行的响应数据。举例说明，当前确定出的响应数据对应的音频流数据为“星际穿越怎么样？”，上一次确定出的响应数据对应的音频流数据为“有什么好看的电影推荐吗？”，“有什么好看的电影推荐吗？”和“星际穿越怎么样？”属于不同VAD检测得到的音频流数据，因此，服务器确定“星际穿越怎么样？”对应的响应数据A1的执行顺序标签为打断标签，将附有打断标签的响应数据A1发送给智能设备，智能设备在接收到附有打断标签的响应数据A1后，立即打断当前正在执行的响应数据，并执行响应数据A1。本发明实施例的方法，通过给响应数据附上打断标签，使得智能设备能够在收到附有打断标签的响应数据后，直接打断当前正在执行的响应数据，进而执行打断标签所标识的响应数据，因此，智能设备能够像人类一样，基于交互对方当前说的话判断是否需要打断当前正在执行的响应数据，进而进入新的对话，使智能设备的响应更加符合用户的预期，更加拟人化。作为另一种可能的实施方式，步骤S203具体包括：基于响应数据以及响应数据之前已确定出的响应数据，确定响应数据对应的执行顺序标签。实际应用中，用户可能连续多句话表达同一语义，例如：“你多大了？你几岁了？”、“厕所在哪？怎么走？”，如果针对用户输入的每句话都执行对应的响应数据，就会显得很生硬且浪费时间。因此，针对这类用户输入的表达同一语义的句子，可只执行一个响应数据。为此，具体实施时，基于响应数据以及响应数据之前已确定出的响应数据，可通过如下方式确定响应数据对应的执行顺序标签：若响应数据对应的音频流数据与已确定出的响应数据对应的音频流数据属于相同VAD检测得到的音频流数据，且该响应数据与已确定出的响应数据中的至少一个响应数据相同，确定该响应数据对应的执行顺序标签为跳过标签，跳过标签用于指示智能设备在执行响应数据时跳过跳过标签所标识的响应数据。举例说明，假设用户输入的句子为“厕所在哪？怎么走？”，确定“厕所在哪？”对应的响应数据为“直走50米左拐就到厕所了”，基于语义识别确定“怎么走？”对应的语义识别结果为“厕所怎么走？”，则“怎么走？”对应的响应数据为“直走50米左拐就到厕所了”，此时，“怎么走？”对应的响应数据与前一句“厕所在哪？”对应的响应数据相同，则“厕所在哪？”对应的响应数据的执行顺序标签为跳过标签。智能设备在收到服务器发送的跳过标签所标识的响应数据后，可直接删除跳过标签所标识的响应数据，也可以将跳过标签所标识的响应数据添加到输出队列的队尾，当执行输出队列中的响应数据时，跳过跳过标签所标识的响应数据，即不执行跳过标签所标识的响应数据。这样，智能识别只会播报“厕所在哪？”对应的响应数据“直走50米左拐就到厕所了”，而不会执行“怎么走？”对应的响应数据。具体实施时，用户输入的表达同一语义的多个句子一般是连续的，因此，为了提高处理效率，可以仅将当前的响应数据与上一次确定出的响应数据进行比较，若当前的响应数据对应的音频流数据与上一次确定出的响应数据对应的音频流数据属于相同VAD检测得到的音频流数据，且当前的响应数据与上一次确定出的响应数据相同，则确定当前的响应数据对应的执行顺序标签为跳过标签。本发明实施例的方法，通过给相同的响应数据附上跳过标签，使得智能设备能够在收到附有跳过标签的响应数据后，直接跳过跳过标签所标识的响应数据，避免重复输出相同的响应数据，使得智能设备能够像人类一样，识别交互对方因口语表达习惯不规范或想进行强调而连续输入的多个表达同一语义的句子，进而仅输出其中一个句子的响应数据，使得智能设备的交互方式更加符合人类的习惯。实际应用中，由于用户说话时的逻辑性较差，会出现用户的第一句话没有表达清楚完整的意思，通过第二句话补充为表达完的内容的情况。例如，用户输入的第一句话为“带我去休息室”，发现没有表达清楚是哪个休息室，随后立即补上第二句话“一楼的那个”，表示用户希望去一楼的那个会议室，通常在识别到第一句话“带我去休息室”后，如果不确定是哪个休息室，智能设备会输出如下响应数据“请问是哪个休息室”以向用户询问，由于用户立即补充的第二句话，此时如果智能设备继续输出“请问是哪个休息室”，会引起用户的反感，或者用户会针对询问作出回复，降低了交互效率。为此，具体实施时，基于响应数据以及响应数据之前已确定出的响应数据，可通过如下方式确定响应数据对应的执行顺序标签：若确定响应数据对应的音频流数据的语义识别结果是对已确定出的响应数据中的任一响应数据对应的音频流数据的语义识别结果的补充，确定响应数据对应的执行顺序标签为置换标签，置换标签用于指示智能设备将置换标签中的信息标识对应的响应数据替换为置换标签所标识的响应数据。具体实施时，可通过如下方式确定响应数据对应的音频流数据的语义识别结果是对已确定出的响应数据中的任一响应数据对应的音频流数据的语义识别结果的补充：若响应数据对应的音频流数据的语义识别结果中具有槽位值的槽位项与已确定出的响应数据中的任一响应数据对应的音频流数据的语义识别结果中缺失槽位值的槽位项相同，确定响应数据对应的音频流数据的语义识别结果是对任一响应数据对应的音频流数据的语义识别结果的补充。举例说明，根据用户输入的第一句“带我去休息室”的语义识别结果，确定缺少“楼层”这一槽位项对应的槽位值，无法确定用户到底想去哪个休息室，根据用户输入的第二句话“一楼的那个”，获得“楼层”槽位项对应的槽位值为“一楼”，此时，可确定“一楼的那个”是对“带我去休息室”的补充。假设，“带我去休息室”对应的响应数据A，“一楼的那个”对应的响应数据B，则给响应数据B附上置换标签，该置换标签中包含响应数据A的信息标识，智能设备在收到响应数据B和其对应的置换标签后，根据响应数据A的信息标识在输出队列中找到响应数据A，将响应数据A替换为响应数据B，因此，智能设备会输出响应数据B，而不会输出响应数据A。实际应用中，由于用户说话时的逻辑性较差，常常会出现说错话的情况，此时，用户会立即补上一句话，对上一句话中的错误进行纠正。例如，用户输入的句子为“带我去休息室”，随后立即纠正“不不，去咖啡厅”，此时，智能设备会分别输出这两句话对应的响应数据，即先带用户去休息室，然后，在带用户去咖啡厅，显然，用户的真实目的是去咖啡厅。为此，具体实施时，基于响应数据以及响应数据之前已确定出的响应数据，可通过如下方式确定响应数据对应的执行顺序标签：若确定响应数据对应的音频流数据的语义识别结果是对已确定出的响应数据中的任一响应数据对应的音频流数据的语义识别结果的纠正，确定响应数据对应的执行顺序标签为置换标签，置换标签用于指示智能设备将置换标签中的信息标识对应的响应数据替换为置换标签所标识的响应数据。具体实施时，可通过如下方式确定响应数据对应的音频流数据的语义识别结果是对已确定出的响应数据中的任一响应数据对应的音频流数据的语义识别结果的纠正：若响应数据对应的音频流数据的语义识别结果中包含否定意图，且响应数据对应的音频流数据的语义识别结果与已确定出的响应数据中的任一响应数据对应的音频流数据的语义识别结果中同一槽位项的槽位值不同，确定响应数据对应的音频流数据的语义识别结果是对任一响应数据对应的音频流数据的语义识别结果的纠正。具体实施时，可通过语义识别、语义理解等技术识别响应数据对应的音频流数据的语音识别结果中是否包含否定意图，或者，还可以通过预设关键词确定是否包含否定意图，例如，预设关键词可以是“不是”、“不不”、“错了”等词。当识别到响应数据对应的音频流数据的语音识别结果中是否包含否定意图后，再从已确定出的响应数据中匹配到且包含上一句话的响应数据所需的槽位信息，则可以确定当前的语音识别结果是否是对上一个语音识别结果的纠正。举例说明，用户输入的第一句话为“带我去休息室”，第二句话为“不不，去咖啡厅”，识别到“不不，去咖啡厅”包含否定意图，且“带我去休息室”的语义识别结果中槽位项“地点”的槽位值为“休息室”，“不不，去咖啡厅”的语义识别结果中槽位项“地点”的槽位值为“咖啡厅”，则确定“不不，去咖啡厅”是对“带我去休息室”中的槽位项“地点”进行纠正。假设，“带我去休息室”对应的响应数据A，“不不，去咖啡厅”对应的响应数据B，则给响应数据B附上置换标签，该置换标签中包含响应数据A的信息标识，智能设备在收到响应数据B和其对应的置换标签后，根据响应数据A的信息标识在输出队列中找到响应数据A，将响应数据A替换为响应数据B，因此，智能设备会输出响应数据B，而不会输出响应数据A。具体实施时，用户一般会及时对上一个输入的句子进行补充或纠正，因此，为了提高处理效率，可以仅将当前的响应数据与上一次确定出的响应数据进行比较，若确定当前的响应数据对应的音频流数据的语义识别结果是对上一次确定出的响应数据的音频流数据的语义识别结果的纠正或补充，则将确定当前的响应数据对应的执行顺序标签为置换标签。具体实施时，还可以通过如下方式确定执行顺序标签：若当前的响应数据对应的音频流数据与上一次确定出的响应数据对应的音频流数据属于相同VAD检测得到的音频流数据或者当前的响应数据对应的音频流数据与上一次确定出的响应数据对应的音频流数据之间的时间信息的差值小于预设时间差，且当前的响应数据对应的音频流数据的语义识别结果是对上一次确定出的响应数据的音频流数据的语义识别结果的纠正或补充，则将确定当前的响应数据对应的执行顺序标签为置换标签。因此，本发明实施例的方法能够有效地应对用户口语表达时种种不规范的情形，使得智能设备在交互时更加智能化。参考图4，本发明实施例提供一种人机对话的输出控制方法，应用于图1所示的智能设备侧，具体包括以下步骤：S401、将采集到的音频流数据发送给服务器。S402、接收服务器发送的基于音频流数据得到的响应数据和响应数据对应的执行顺序标签。其中，服务器侧执行的方法可参考图2所示的方法，不再赘述。S403、根据执行顺序标签，执行响应数据。具体实施时，智能设备从输出队列中获取队首的响应数据，并输出该响应数据。进一步，从输出队列中删除该响应数据。作为一种可能的实施方式，步骤S403具体包括：若执行顺序标签为插入标签，根据插入标签指示的响应数据在智能设备已接收到的响应数据之间的执行顺序，执行响应数据。具体实施时，当执行顺序标签为插入标签时，将插入标签所标识的响应数据插入到输出队列中该插入标签中的标识信息对应的响应数据之后的位置，若输出队列中不存在插入标签中的标识信息对应的响应数据，将响应数据添加到输出队列的队首。举例说明，智能设备在收到响应数据D以及对应的插入标签后，根据插入标签中响应数据A的标识信息SID-A，在表2.1所示的输出队列中找到响应数据A的存储位置，将响应数据D插入到输出队列中响应数据A之后，得到如表2.2所示的输出队列。表2.1标识信息响应数据SID-AASID-BBSID-CC表2.2标识信息响应数据SID-AASID-DDSID-ABSID-AC实际应用中，智能设备中的输出队列仅用于存储接收到的且未执行的响应数据，即已执行的响应数据以及正在执行的响应数据不会存储在输出队列中，若在输出队列中查询不到插入标签中的标识信息时，可直接将该响应数据插入到输出队列的队首。作为一种可能的实施方式，步骤S403具体包括：若执行顺序标签为打断标签，终止智能设备当前正在执行的响应数据，并执行打断标签所标识的响应数据。具体实施时，智能设备在收到附有打断标签的响应数据后，直接终止当前正在执行的响应数据，并立即执行该打断标签所标识的响应数据，无需将打断标签所标识的响应数据增加到输出队列中，等待该打断标签所标识的响应数据执行完毕后，再执行输出队列中位于队首的响应数据。举例说明，智能设备正在执行“介绍下青花瓷”对应的响应数据，在收到“带我参观下博物馆”对应的响应数据后，由于“带我参观下博物馆”附有打断标签，则终止执行“介绍下青花瓷”对应的响应数据，直接执行“带我参观下博物馆”对应的响应数据。需要说明的是，携带有打断标签的响应数据不需要添加到输出队列中，而是由智能设备直接输出。作为一种可能的实施方式，步骤S403具体包括：若执行顺序标签为跳过标签，在执行响应数据时跳过跳过标签所标识的响应数据。具体实施时，当执行顺序标签为跳过标签时，智能设备可直接删除跳过标签所标识的响应数据或将该响应数据添加输出队列的队尾。若智能设备选择将跳过标签所标识的响应数据添加输出队列的队尾，则在执行输出队列中的响应数据时，若当前待执行的响应数据附有跳过标签，则不执行该响应数据，直接删除该响应数据。作为一种可能的实施方式，当步骤S403具体包括：若执行顺序标签为置换标签，将已接收到的响应数据中与置换标签中的信息标识对应的响应数据替换为置换标签所标识的响应数据。具体实施时，当执行顺序标签为置换标签时，智能设备将输出队列中与置换标签中的信息标识对应的响应数据替换为该置换标签所标识的响应数据。举例说明，智能设备在收到附有置换标签的响应数据B后，根据置换标签中的信息标识在输出队列中找到该信息标识对应的响应数据A，将输出队列中的响应数据A替换为响应数据B，因此，智能设备会执行响应数据B，而不会执行响应数据A。具体实施时，如果输出队列中不存在置换标签中的信息标识对应的响应数据A，表示响应数据A可能已经执行完毕了，或者智能设备正在执行响应数据A。若智能设备正在执行响应数据A，可打断当前正在执行的响应数据A，直接执行响应数据B；若输出队列中不存在置换标签中的信息标识对应的响应数据A，且智能设备正在执行的不是响应数据A，可选择将响应数据B存储在输出队列的队首，待当前正在执行的响应数据执行完毕后，再执行响应数据B。在实际应用中，存在以下诸多情况导致无法及时确定出响应数据：语音识别、语义识别或语义理解的处理时间较长，或者，识别到一些无语义的内容，如“请问一下”、“我想一下”、“嗯嗯”、“啊”等无语义的口头用语，会导致无法及时确定出响应数据，从而智能设备端无法收到响应数据，也就无法向用户作出回复。为了应对上述情况，在上述任一实施例的基础上，本发明实施例的方法还包括如下步骤：若超过超时时长后未收到服务器返回的响应数据，且输出队列中没有响应数据，输出预设的播报信息。其中，预设的播报信息可以是“嗯，好的”、“嗯嗯”、“马上开始XX”、“让我想一想”等语音。其中，超时时长可根据服务器对音频流数据的处理速度确定的，例如，一般从智能设备将音频流数据发送给服务器，到接收到服务器反馈的音频流数据对应的响应数据的平均时间为5秒，则超时时长可以设置为30秒，如果30秒后仍没有收到对应的响应数据，且此时输出队列中没有等待执行的响应数据，则智能设备可以输出预设的播报信息，以安抚用户。本发明实施例的人机对话的输出控制方法，能够针对用户输入多个句子，有选择性地调整输出各个句子对应的响应数据的先后顺序，使得智能设备能够以接近人类自然交互的方式输出响应数据，使得人机交互过程更加自然。如图5所示，基于与上述人机对话的输出控制方法相同的发明构思，本发明实施例还提供了一种人机对话的输出控制装置50，包括：语音处理模块501、响应数据确定模块502标签确定模块503和控制模块504。语音处理模块501用于实时对智能设备采集到的音频流数据进行语音处理。响应数据确定模块502用于根据语音处理结果，确定针对音频流数据的响应数据。标签确定模块503用于确定响应数据对应的执行顺序标签。控制模块504用于控制智能设备根据执行顺序标签执行响应数据。可选地，标签确定模块具体用于：确定响应数据的优先级；基于响应数据的优先级以及响应数据之前已确定出的响应数据的优先级，确定响应数据对应的执行顺序标签。进一步地，标签确定模块503具体用于：若响应数据对应的音频流数据与已确定出的响应数据对应的音频流数据属于相同VAD检测得到的音频流数据，根据响应数据的优先级和已确定出的响应数据的优先级，按照优先级从高到低的排列顺序，确定响应数据在已确定出的响应数据之间的排列位置；根据响应数据的排列位置，确定响应数据对应的插入标签，并将插入标签作为响应数据对应的执行顺序标签，插入标签用于指示插入标签所标识的响应数据在智能设备已接收到的响应数据之间的执行顺序。进一步地，标签确定模块503具体用于：基于响应数据对应的音频流数据的语义识别结果和/或智能设备采集到的视觉信息，确定响应数据的优先级；或者，根据响应数据对应的音频流数据以及已确定出的响应数据对应的音频流数据的时间信息，确定响应数据的优先级。可选地，标签确定模块503具体用于：若响应数据对应的音频流数据与上一次确定出的响应数据对应的音频流数据属于不同VAD检测得到的音频流数据，确定响应数据对应的执行顺序标签为打断标签，打断标签用于指示打断标签所标识的响应数据能够打断智能设备当前正在执行的响应数据。可选地，标签确定模块503具体用于：基于响应数据以及响应数据之前已确定出的响应数据，确定响应数据对应的执行顺序标签。进一步地，标签确定模块503具体用于：若响应数据对应的音频流数据与已确定出的响应数据对应的音频流数据属于相同VAD检测得到的音频流数据，且响应数据与已确定出的响应数据中的至少一个响应数据相同，确定响应数据对应的执行顺序标签为跳过标签，跳过标签用于指示智能设备在执行响应数据时跳过跳过标签所标识的响应数据。进一步地，标签确定模块503具体用于：若确定响应数据对应的音频流数据的语义识别结果是对已确定出的响应数据中的任一响应数据对应的音频流数据的语义识别结果的补充或纠正，确定响应数据对应的执行顺序标签为置换标签，置换标签用于指示智能设备将置换标签中的信息标识对应的响应数据替换为置换标签所标识的响应数据。进一步地，标签确定模块503还用于：若响应数据对应的音频流数据的语义识别结果中具有槽位值的槽位项与已确定出的响应数据中的任一响应数据对应的音频流数据的语义识别结果中缺失槽位值的槽位项相同，确定响应数据对应的音频流数据的语义识别结果是对任一响应数据对应的音频流数据的语义识别结果的补充；或者，若响应数据对应的音频流数据的语义识别结果中包含否定意图，且响应数据对应的音频流数据的语义识别结果与已确定出的响应数据中的任一响应数据对应的音频流数据的语义识别结果中同一槽位项的槽位值不同，确定响应数据对应的音频流数据的语义识别结果是对任一响应数据对应的音频流数据的语义识别结果的纠正。本发明实施例提的人机对话的输出控制装置与上述人机对话的输出控制方法采用了相同的发明构思，能够取得相同的有益效果，在此不再赘述。如图6所示，基于与上述人机对话的输出控制方法相同的发明构思，本发明实施例还提供了一种人机对话的输出控制装置60，包括：数据发送模块601、数据接收模块602和执行模块603。数据发送模块601用于将采集到的音频流数据发送给服务器。数据接收模块602用于接收服务器发送的基于音频流数据得到的响应数据和响应数据对应的执行顺序标签。执行模块603用于根据执行顺序标签，执行响应数据。可选地，执行模块603具体用于：若执行顺序标签为插入标签，根据插入标签指示的响应数据在智能设备已接收到的响应数据之间的执行顺序，执行响应数据。可选地，执行模块603具体用于：若执行顺序标签为打断标签，终止智能设备当前正在执行的响应数据，并执行打断标签所标识的响应数据。可选地，执行模块603具体用于：若执行顺序标签为跳过标签，在执行响应数据时跳过跳过标签所标识的响应数据。可选地，执行模块603具体用于：若执行顺序标签为置换标签，将已接收到的响应数据中与置换标签中的信息标识对应的响应数据替换为置换标签所标识的响应数据。可选地，还包括超时播报模块，用于若超过超时时长后未收到服务器返回的响应数据，且所述输出队列中没有响应数据，输出预设的播报信息。本发明实施例提的人机对话的输出控制装置与上述人机对话的输出控制方法采用了相同的发明构思，能够取得相同的有益效果，在此不再赘述。基于与上述人机对话的输出控制方法相同的发明构思，本发明实施例还提供了一种电子设备，该电子设备具体可以为智能设备内部的控制设备或控制系统，也可以是与智能设备通信的外部设备，如可以为桌面计算机、便携式计算机、智能手机、平板电脑、个人数字助理(PersonalDigitalAssistant，PDA)、服务器等。如图7所示，该电子设备70可以包括处理器701和存储器702。存储器702可以包括只读存储器(ROM)和随机存取存储器(RAM)，并向处理器提供存储器中存储的程序指令和数据。在本发明实施例中，存储器可以用于存储人机对话的输出控制方法的程序。处理器701可以是CPU(中央处埋器)、ASIC(ApplicationSpecificIntegratedCircuit，专用集成电路)、FPGA(Field－ProgrammableGateArray，现场可编程门阵列)或CPLD(ComplexProgrammableLogicDevice，复杂可编程逻辑器件)处理器通过调用存储器存储的程序指令，按照获得的程序指令实现上述任一实施例中的人机对话的输出控制方法。本发明实施例提供了一种计算机可读存储介质，用于储存为上述电子设备所用的计算机程序指令，其包含用于执行上述人机对话的输出控制方法的程序。上述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。基于与人机对话的输出控制方法相同的发明构思，本发明实施例提供了一种计算机程序产品，所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时实现上述任一实施例中的人机对话的输出控制方法。以上所述，以上实施例仅用以对本申请的技术方案进行了详细介绍，但以上实施例的说明只是用于帮助理解本发明实施例的方法，不应理解为对本发明实施例的限制。本

技术领域：

信息的技术人员可轻易想到的变化或替换，都应涵盖在本发明实施例的保护范围之内。当前第1页1 2 3

技术特征：

1.一种人机对话的输出控制方法，其特征在于，包括：

实时对智能设备采集到的音频流数据进行语音处理；

根据语音处理结果，确定针对所述音频流数据的响应数据；

确定所述响应数据对应的执行顺序标签；

控制所述智能设备根据所述执行顺序标签执行所述响应数据。

2.根据权利要求1所述的方法，其特征在于，所述确定所述响应数据对应的执行顺序标签，具体包括：

确定所述响应数据的优先级；

基于所述响应数据的优先级以及所述响应数据之前已确定出的响应数据的优先级，确定所述响应数据对应的执行顺序标签。

3.根据权利要求2所述的方法，其特征在于，所述基于所述响应数据的优先级以及所述响应数据之前已确定出的响应数据的优先级，确定所述响应数据对应的执行顺序标签，具体包括：

若所述响应数据对应的音频流数据与所述已确定出的响应数据对应的音频流数据属于相同VAD检测得到的音频流数据，根据所述响应数据的优先级和所述已确定出的响应数据的优先级，按照优先级从高到低的排列顺序，确定所述响应数据在所述已确定出的响应数据之间的排列位置；

根据所述响应数据的排列位置，确定所述响应数据对应的插入标签，并将所述插入标签作为所述响应数据对应的执行顺序标签，所述插入标签用于指示所述插入标签所标识的响应数据在所述智能设备已接收到的响应数据之间的执行顺序。

4.根据权利要求1所述的方法，其特征在于，所述确定所述响应数据对应的执行顺序标签，具体包括：

若所述响应数据对应的音频流数据与上一次确定出的响应数据对应的音频流数据属于不同VAD检测得到的音频流数据，确定所述响应数据对应的执行顺序标签为打断标签，所述打断标签用于指示所述打断标签所标识的响应数据能够打断所述智能设备当前正在执行的响应数据。

5.根据权利要求1所述的方法，其特征在于，所述确定所述响应数据对应的执行顺序标签，具体包括：

基于所述响应数据以及所述响应数据之前已确定出的响应数据，确定所述响应数据对应的执行顺序标签。

6.根据权利要求5所述的方法，其特征在于，所述基于所述响应数据以及所述响应数据之前已确定出的响应数据，确定所述响应数据对应的执行顺序标签，具体包括：

若所述响应数据对应的音频流数据与所述已确定出的响应数据对应的音频流数据属于相同VAD检测得到的音频流数据，且所述响应数据与所述已确定出的响应数据中的至少一个响应数据相同，确定所述响应数据对应的执行顺序标签为跳过标签，所述跳过标签用于指示所述智能设备在执行响应数据时跳过所述跳过标签所标识的响应数据。

7.根据权利要求5所述的方法，其特征在于，所述基于所述响应数据以及所述响应数据之前已确定出的响应数据，确定所述响应数据对应的执行顺序标签，具体包括：

若确定所述响应数据对应的音频流数据的语义识别结果是对所述已确定出的响应数据中的任一响应数据对应的音频流数据的语义识别结果的补充或纠正，确定所述响应数据对应的执行顺序标签为置换标签，所述置换标签用于指示所述智能设备将所述置换标签中的信息标识对应的响应数据替换为所述置换标签所标识的响应数据。

8.一种人机对话的输出控制装置，其特征在于，包括：

语音处理模块，用于实时对智能设备采集到的音频流数据进行语音处理；

响应数据确定模块，用于根据语音处理结果，确定针对所述音频流数据的响应数据；

标签确定模块，用于确定所述响应数据对应的执行顺序标签；

控制模块，用于控制所述智能设备根据所述执行顺序标签执行所述响应数据。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，该计算机程序指令被处理器执行时实现权利要求1至7任一项所述方法的步骤。

技术总结

本发明涉及人工智能技术领域信息，公开了一种人机对话的输出控制方法、装置、电子设备及存储介质，所述方法包括：实时对智能设备采集到的音频流数据进行语音处理；根据语音处理结果，确定针对所述音频流数据的响应数据；确定所述响应数据对应的执行顺序标签；控制所述智能设备根据所述执行顺序标签，执行所述响应数据。本发明实施例提供的技术方案，执行响应数据的控制方式更加灵活，使得智能设备能够以接近人类自然交互的方式执行响应数据，使得人机交互过程更加自然。

技术研发人员：李思达;吴本谷;韩伟

受保护的技术使用者：北京猎户星空科技有限公司

技术研发日：.06.28

技术公布日：.10.01

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。