技术小站8

网站首页 互联网 > 正文

谷歌开源AI用表格数据回答自然语言问题

2022-02-19 10:57:26 互联网 来源:
导读 开源表格解析器(TAPAS)是一个深度学习系统,可以从表格数据中回答自然语言问题。TAPAS训练了从维基百科中提取的620万个表,在几个基准测试

开源表格解析器(TAPAS)是一个深度学习系统,可以从表格数据中回答自然语言问题。TAPAS训练了从维基百科中提取的620万个表,在几个基准测试上达到或超过了最先进的性能。

联合创始人thomas moorer在最近的一篇博客文章中概述了这项工作。给定一个数字数据表,如体育比赛结果或金融统计数据,TAPAS旨在回答关于可以从表中推断出的事实的自然语言问题;例如,给定一个体育比赛列表,TAPAS可能能够回答“哪个队赢得了最多的冠军?”与之前解决这个问题的方法相比,将自然语言查询转换成软件等查询语言SQL,然后在数据表上运行。餐前零食社直接对数据进行操作,优于之前的基准模型。FAQ :在微软的连续问答中得分超过12分。A (SQA)和斯坦福大学的WikiTableQuestions超过4分(WTQ)。

过去,许多人工智能系统使用一种称为语义解析的方法来解决从表格数据中回答问题的问题。这种方法将自然语言问题转化为“逻辑形式”,实质上是将人类语言转化为编程语言语句。对于有关表格数据的问题,逻辑形式通常是一种查询语言,比如SQL。微软和Salesforce都开发了这样的系统,但根据谷歌团队的说法,语义分析的一个缺点是,像所有的监督学习一样,它需要人工标记的数据集;在这个例子中,它将自然语言问题映射成逻辑形式。谷歌的意见是跳过逻辑形式这个中间步骤。TAPAS直接输出“表格单元格的子集和可能的聚合操作”。

TAPAS基于谷歌的NLP系统BERT,可以训练该系统对自然语言问题给出自然语言答案。在这个场景中,BERT的输入训练数据包括问题和答案。对于用数字数据回答问题的TAPAS,训练输入包括问题和表格的数字数据,并将它们压缩成长序列。因为表的扁平化将丢失有关数据结构的信息,所以输入还包括为编码每个单元格而嵌入的行和列索引,以及列中单元格的等级值。该模型有两组输出。第一,对于表格中的每个单元格,都有一个概率得分,单元格是答案的一部分;任何概率大于0.5的像元都将包含在最终结果中。第二种方法是选择一个聚合操作,例如SUM或AVERAGE(如果不需要聚合,则选择NONE)。

TAPAS在从维基百科中提取的620万个数据表上进行了预训练。这些数据表包含从文章标题、文章描述、表格标题和其他相关文本片段中提取的相关问题。然后,在特定的基准数据集上微调模型。谷歌团队使用了三个基准数据集,SQA、WTQ和Salesforce的WikiSQL。在SQA上,TAPAS的准确率达到了67.2%,比之前的水平提高了12个百分点。在WTQ上,准确率达到48.8%,比之前的系统提高了4%。在WikiSQL上,TAPAS的得分为83.6%,非常接近83.9%的最高水平。


版权说明: 本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。


标签:




热点推荐
热评文章
随机文章