台湾资讯门户网

苹果开发全新AI框架,让用户亲身参与数据标记自动化

我想昨天分享的狩猎云网络

[猎云网]于9月24日报道(编译:Ge Landong)

Apple Siri等私人助理使用自然语言命令来完成任务。但是,它们的底层组件通常依赖于受监督的机器学习算法,该算法需要大量的手动注释训练数据。为了减少收集这些数据所需的时间和精力,Apple研究人员开发了一个框架,该框架使用用户参与的信号自动创建增强数据的标签。他们的报告指出,使用多任务处理和外部知识库验证等策略时,带注释的数据极大地提高了生产深度学习系统的准确性。

“我们相信,这是首次将用户参与信号用于帮助大规模生成序列标签训练数据,并且可以将其应用于实际设置,从而以很少的速度加快新功能的部署手动注释数据”,研究人员在论文中发表了这一观点。 “此外,用户参与信号可以帮助我们从数字助理自身的错误中学习,以确定需要改进的地方。”

研究人员使用了一系列启发式方法来识别可能表明积极参与或消极参与的行为。其中一些功能包括单击内容以进一步参与(积极响应),长时间听歌(另一积极响应)或中断Smart Assistant提供的内容以及手动选择其他内容(否定响应)。这些信号以“受隐私保护的方式”有选择地获取,以自动生成基本的真实注释,然后将其与人类注释者提供的粗粒度标签进行组合。

为了将粗粒度标签和推断的细粒度标签合并到人工智能模型中,本文的合作者设计了一个多任务学习框架,将粗粒度和细粒度物理标签视为两项任务。此外,它们还包含一个由实体及其关系组成的外部知识库验证器。假设“某物”被预测为音乐标题,“甲壳虫”被预测为音乐艺术家,我们可以查询“由甲壳虫演奏某些东西”,验证器将扩大对第一级标签的替代项的搜索并将其发送到将重新排列预测并返回最佳替代方案的组件。

研究人员使用两个独立的测试集来评估多任务处理模型执行的任务。他们从生产系统中随机抽样,并手动标记了基础真实标签。他们表示,在21个模型的运行中,与所有手动注释数据的基线相比,添加的260,000个训练示例“一致地”降低了预测任务中的粗粒度实体错误率。此外,他们报告说,当手动注释数据量相对较少(5000个示例)时,添加弱监督的细粒度数据会产生更大的影响。最后,他们报告说,对于任何顶级模型假设,通过知识库验证程序的示例,细粒度实体的错误率下降了约50%。

在另一个实验中,团队试图确定用户意图的更微妙的注释是否会增加系统选择正确操作的可能性。他们收集了大约5,000个“播放音乐”命令,其中包括对多个乐队,艺术家和歌曲的引用,并通过包含其框架的系统将其发送出去,然后他们要求注释者返回系统返回的响应。感到“满意”或“不满意”。研究人员报告说,与任务错误率相比,增强型系统的结果减少了24.64%。

他们将继续探索如何使用个人用户参与行为来增强个性化。

“我们观察到我们的模型改善了用户最终收到的结果,特别是对于包含困难或异常语言模式的请求,”论文的合作者写道。 “例如,增强型系统可以正确处理诸如'您可以在新专辑Miley Cyrus中播放Malibu'和'Humble'中播放Kendrick Lamar的查询之类的问题。另外,增强的模型还可以识别遭遇中的用户。当涉及到真正的语言歧义时,更有可能被引用的实体。例如,在Metallica的Play one中,一个可以是非物理标签(意味着播放Metallica的任何歌曲),也可以是Metallica的其中之一。歌曲。由于大多数用户在说“播放Metallica播放的音乐”时都会听到Metallica的“ One”歌曲,因此我们的模型将根据用户对注释数据的参与来预测“ One”的含义,这更好。捕获用户社区的趋势和偏好。”

之前,有一篇论文描述了苹果公司的人工智能开发工具Overton,该工具为“数十亿”查询建模。此外,苹果公司最近研究了用户是否喜欢与“智能”人工智能助手交谈。

收款报告投诉

[猎云网]于9月24日报道(编译:Ge Landong)

Apple Siri等私人助理使用自然语言命令来完成任务。但是,它们的底层组件通常依赖于受监督的机器学习算法,该算法需要大量的手动注释训练数据。为了减少收集这些数据所需的时间和精力,Apple研究人员开发了一个框架,该框架使用用户参与的信号自动创建增强数据的标签。他们的报告指出,使用多任务处理和外部知识库验证等策略时,带注释的数据极大地提高了生产深度学习系统的准确性。

“我们相信,这是首次将用户参与信号用于帮助大规模生成序列标签训练数据,并且可以将其应用于实际设置,从而以很少的速度加快新功能的部署手动注释数据”,研究人员在论文中发表了这一观点。 “此外,用户参与信号可以帮助我们从数字助理自身的错误中学习,以确定需要改进的地方。”

研究人员使用了一系列启发式方法来识别可能表明积极参与或消极参与的行为。其中一些功能包括单击内容以进一步参与(积极响应),长时间听歌(另一积极响应)或中断Smart Assistant提供的内容以及手动选择其他内容(否定响应)。这些信号以“受隐私保护的方式”有选择地获取,以自动生成基本的真实注释,然后将其与人类注释者提供的粗粒度标签进行组合。

为了将粗粒度标签和推断的细粒度标签合并到人工智能模型中,本文的合作者设计了一个多任务学习框架,将粗粒度和细粒度物理标签视为两项任务。此外,它们还包含一个由实体及其关系组成的外部知识库验证器。假设“某物”被预测为音乐标题,“甲壳虫”被预测为音乐艺术家,我们可以查询“由甲壳虫演奏某些东西”,验证器将扩大对第一级标签的替代项的搜索并将其发送到将重新排列预测并返回最佳替代方案的组件。

研究人员使用两个独立的测试集来评估多任务处理模型执行的任务。他们从生产系统中随机抽样,并手动标记了基础真实标签。他们表示,在21个模型的运行中,与所有手动注释数据的基线相比,添加的260,000个训练示例“一致地”降低了预测任务中的粗粒度实体错误率。此外,他们报告说,当手动注释数据量相对较少(5000个示例)时,添加弱监督的细粒度数据会产生更大的影响。最后,他们报告说,对于任何顶级模型假设,通过知识库验证程序的示例,细粒度实体的错误率下降了约50%。

在另一个实验中,团队试图确定用户意图的更微妙的注释是否会增加系统选择正确操作的可能性。他们收集了大约5,000个“播放音乐”命令,其中包括对多个乐队,艺术家和歌曲的引用,并通过包含其框架的系统将其发送出去,然后他们要求注释者返回系统返回的响应。感到“满意”或“不满意”。研究人员报告说,与任务错误率相比,增强型系统的结果减少了24.64%。

他们将继续探索如何使用个人用户参与行为来增强个性化。

“我们观察到我们的模型改善了用户最终收到的结果,特别是对于包含困难或异常语言模式的请求,”论文的合作者写道。 “例如,增强型系统可以正确处理诸如'您可以在新专辑Miley Cyrus中播放Malibu'和'Humble'中播放Kendrick Lamar的查询之类的问题。另外,增强的模型还可以识别遭遇中的用户。当涉及到真正的语言歧义时,更有可能被引用的实体。例如,在Metallica的Play one中,一个可以是非物理标签(意味着播放Metallica的任何歌曲),也可以是Metallica的其中之一。歌曲。由于大多数用户在说“播放Metallica播放的音乐”时都会听到Metallica的“ One”歌曲,因此我们的模型将根据用户对注释数据的参与来预测“ One”的含义,这更好。捕获用户社区的趋势和偏好。”

之前,有一篇论文描述了苹果公司的人工智能开发工具Overton,该工具为“数十亿”查询建模。此外,苹果公司最近研究了用户是否喜欢与“智能”人工智能助手交谈。