文章

Meta分享AI语音系统CAIRaoke：构建自然对话AR/VR语音助手

发布时间：2022-2-25 08:36作者：冬瑞阅读：593 评论: 0来自: 网络

内容简介：Meta日前举办了一个名为“Meta AI: Inside the Lab”的人工智能实验室揭秘活动。除了演示人工智能团队所取得的最新突破外，Meta同时希望进一步说明人工智能将如何赋能公司的元宇宙未来。 ...

Meta日前举办了一个名为“Meta AI: Inside the Lab”的人工智能实验室揭秘活动。除了演示人工智能团队所取得的最新突破外，Meta同时希望进一步说明人工智能将如何赋能公司的元宇宙未来。

在一个名为Project CAIRaoke的项目中，Meta希望构建一个能够与你进行自然对话的未来人工智能助手。下面映维网整理了团队的博文分享：

如果我们能够用自然的对话式语言与人工智能助手进行互动，就像普通的人类间交流一样，它将可以大大提升我们的生活质量。但无论是通过语音还是短信与其交流，如今的人工智能助手总是机器味道十。当你发出“在今天剩下的时间里静音所有通知，除非是我妈妈”等常见的请求时，它们往往无法予以正确的回应，更不用说像“我能为私人聚会租用当地社区中心吗？”或者像“为7月4日的周末规划一个价格合理的家庭海滩度假”等复杂任务。

所以，是时候提供更好的对话式人工智能了。

为了实现这一目标，Meta日前正式发布了宣布Project CAIRaoke。团队开发了一个端到端的神经模型，并已经在Portal中使用了Project CAIRaoke产生的模型。与人们现在熟悉的系统相比，它可以进行更多的个人和情景对话。这家公司的目标是将其与增强现实和虚拟现实设备集成，以便在未来实现与人工智能助手的沉浸式、多模式交互。

对于更好的对话式人工智能来说，最大的障碍可能是驱动当今先进数字助手的架构。尽管系统只提供一项服务，但它们实际上依赖于四个独立的组件：自然语言理解（NLU）、对话状态跟踪（DST）、对话策略（DP）管理和自然语言生成（NLG）。不同的人工智能系统必须联结在一起，所以它们难以优化，不善于适应新的或不熟悉的任务，并且高度依赖劳动密集型的注释数据集。

这就是为什么如今为大多数设备提供服务的数字助手会只能提供机械式的选项，忘记对话的情景，并遵循规定对话流程的原因之一。例如，你可以向助手询问当地的天气预报，但如果你继续询问简单但出乎其意料的问题，比如“天气比上周热吗？”，它将无法很好地予以回应。

通过使用Project CAIRaoke创建的模型，人们将能够自然地与对话助手交谈，从而可以在谈话中回顾之前的内容，完全改变话题，或者提及依赖于理解复杂、微妙情景地内容。你甚至可以以全新的方式与它们互动，比如使用手势。

Meta已经开始在视频通话设备Portal使用所述模型，以便更轻松地创建和管理提醒。例如，你可以快速澄清如下请求：

你：将闹钟设置为6:30。

助手: 早上6：30还是晚上6：30？

你: 晚上，然后提醒栏目就叫‘买鸡蛋’吧。

助手 : 好的，买鸡蛋的提醒时间定在明天傍晚6:30。

即便是这个早期测试，Meta都相信模型的性能优于标准方法。团队观察Portal时发现，与现有的方法相比，Project CAIRaoke在提醒方面有了显著的改进。相关评估是通过完成一组提醒目标的成功率，并同时保持正常的轮次数来衡量。

但这只是利用所述新技术的第一步。团队相信，Project CAIRaoke的进展将能帮助人与AI之间实现更丰富的交流，并且成为构建元宇宙未来的一个重要工具。未来，AR眼镜内置的Project CAIRaoke数字助手可能会以一系列感觉自然的形式来与你交互。例如，如果你问：“这条裤子应该搭配什么？”它可以回答：“这件有着你最喜欢的红色的衬衫”，然后它甚至会显示相关物品的图像。如果你说，“我喜欢，但条纹太宽了。”这时，它就会显示一个细条纹版本。

在未来，Meta希望在世界各地数百万人的日常应用中能够利用所述项目产生的模型。

1. 构建真正的交互式对话人工智能

推进对话式人工智能的一个必要步骤是理解问题的全部范围。你或者知道NLU的众多最新进展，比如BART和GPT-3，并认为理解和生成类似人类文本的挑战已经解决。但其实我们尚未达到所述里程碑。为了理解这一点，我们必须将人工智能区分为理解式人工智能和交互式人工智能。前者在整个行业都获得了充分的研发。它用于从各种输入模式中提取意义，例如自动语音识别、图像分类和NLU。后者则是我们如何利用我们对世界的理解来与使用技术的人员交互。这可以是发送文本、语音命令、触觉反馈、显示图像、视频或相关组合。

整个行业的研究人员和工程师都同意，好的对话系统需要一个由人工智能模型支持的坚实理解层。但许多人认为交互是一个工程问题，而不是人工智能问题。所以，理解世界状态的工程师可以创建一个复杂的逻辑来处理所需的交互。工程方法使理解系统如何工作变得容易，并在必要时快速调试逻辑。然而，这种普遍的信念导致了一个不是那么强大的对话式人工智能，亦即你无法通过它们轻松规划假期的一个主要原因。

2. 一种新的、统一的方法

上述示例对话框展示了Meta希望助手具备的关键技能：不仅提供准确的、最新的真实世界知识，而且可以跨多模式工作（在本例中是跨视觉和语音），跨领域工作（发送消息并估计到达时间），让你推动对话，不需要遵循僵化的对话模板。

人工智能助手的规范方法需要四组输入和输出：管道的每一层（NLU、DST、DP和NLG）各一组。它同时需要为每一层的输入和输出定义标准。例如对于NLU，传统的对话人工智能系统需要定义的本体。

然而，Meta的模型使用了神经网络，而且根本没有规定对话流程。利用这个模型，团队只需要一组训练数据。

Project CAIRaoke减少了添加新域所需的工作量。在规范方法中，扩展到一个新域需要依次构建和修复每个模块，然后才能可靠地训练下一个模块。换句话说，如果NLU和DST每天都发生变化，训练DP就无法有效完成。一个组件的更改可能会影响其他组件，从而触发所有后续模块的再训练。这种相互依赖性会减慢后续模块的进度。但通过所述的端到端技术，Meta消除了对上游模块的依赖，从而提高了开发和训练速度，并使团队能够用更少的精力和数据微调其他模型。

在这种新方法中，对话功能更加强大，因为它们能够通过在一个地方查看全部信息来做出决策。以前，即使一个组件中的一个小错误都可能会以意外的、难以解决的方式传播到其他组件。例如，当前基于规则的助手会明确地编程为在数字后寻找特定的单词或短语“p.m.”以表示下午，而Project CAIRaoke利用了高级的预训练语言模型，从而可以更好地理解情景，并能识别同一事物的不同表达方式。

最后，Project CAIRaoke将支持Meta AI的最新对话式机器人BlenderBot 2.0。这意味着使用模型构建的助手可以表现出同理心语言，传递通过实时搜索互联网发现的知识，并表现出一致的个性。

当系统生成自然语言时，其必须解决潜在的安全和隐私挑战。如今，大多数NLG组件都编写了脚本，以便内容审核员确保助手不会向用户提供令人反感的响应。但通过将助手直接对接到用户，这存在错误或冒犯性交互的风险。

重要的是，Meta在BlenderBot中加入了保护措施，这将有助于减少攻击性反应。团队同时在考虑隐私的情况下开发辅助技术。例如，对于Ray Ban Stories和Portal，语音命令的使用属于可选选项，你可以查看和删除语音命令的转录本，并且始终可以选择关闭语音存储。

为了降低对用户产生不良反应的风险，Project CAIRaoke的第一个里程碑是生成对话动作和自然语言。短期内，生成对话动作，并依靠一个经过测试和严格约束的NLG系统来提供用户响应。长远看，在确保模型的端到端完整性之后，团队将公开生成的句子。

另一个问题模型自信地陈述不正确的信息。这对端到端技术而言是一个巨大的挑战，因为模型可能会根据训练数据在对话框中引入或更改entities。例如，如果你让助手“设置一个呼叫唐姆的提醒”，它可能会设置一个呼叫汤姆的提醒，因为唐姆是一个不太常见的名字。Meta正在使用各种数据增强技术和注意力网络来增强Project CAIRaoke的稳健性，并利用BlenderBot 2.0来减少所述问题。

3. 使用语音完成无数日常任务

尽管短期内实施的Project CAIRaoke模型是用于Portal的提醒，但团队希望能够很快将其应用于更大的领域，从而帮助个性化人们的购物体验，并允许人们推动对话流程。

Meta同时认为，这一进步对于为增强现实构建AI对话能力特别有用。在不久的将来，人们会像今天使用智能扬声器、智能手表和其他设备一样，定期在AR眼镜使用语音助手。考虑到这一点，团队正在努力缩小像这样的端到端模型的大小。研究人员同时在努力提高模型的易调试性。这是一个复杂的挑战，因为在这个新框架中，信息是在嵌入空间中表示，而在规范模型中，信息属于显式。为了充分实现对Project CAIRaoke的愿景，其需要将其扩展到多种语言，并找到高效使用所述模型的方法。

这家公司最后总结道：“我们可以想象，数年后，Project CAIRaoke的技术将成为下一代人与设备交互的基础。对于诸如VR头显和AR眼镜等设备，我们预计这种通信最终将成为无处不在的无缝导航和交互方法，就像触摸屏取代初代智能手机的键盘一样。我们目前的模型是向前迈出的重要一步，但要充分实现这一愿景，我们还有更多的工作要做。但我们对迄今取得的进展和面临的挑战感到非常兴奋。”