台湾资讯门户网

RoBERTa在SuperGLUE得分逼近人类,甩baseline十多个点

v8VDhPI7Bh=I=PMXbsHE7EdPSGjw30RiTByFvvtDp8n0x1565681162418compressflag.jpg

生成大数据摘要

作者:宁静,曹培新

7月30日,Digest被报道称,完全被谷歌XLNet轰炸的BERT由Facebook升级并变成了“强大优化的BERT方法” - 强大优化的BERT方法,重新掌握GLUE,SQUAD和RACE三个排名名单。

C4u8P57OwLfjs4Kic64D2UUUlLBxH13OBuxaGNdv50TtP1565681162415compressflag.png

RACE测试集的结果表明,RoBERTa的Accyracy比BERT(大)高10%,比XLNet(大)高2%。

HscYh0tz0FBn096BY=8b6Ihy4bNwrr01PxHdY8H4NrXfh1565681162419.jpg

现在,Facebook AI已将RoBERTa提交给SuperGLUE。该列表显示,RoBERTa已经使Bert领先15个百分点,其表现几乎与人性相当。

2xRt0lDQJXKztixFWjAcw7Pz7TgVvgwDDJnYCHWw87YM71565681162415.jpg

从GLUE到SuperGLUE:更加困难

基于GLUE设计,SuperGLUE采用了一系列更加困难的语言理解任务。除了常见的任务识别文本蕴涵(RTE)和Winograd模式挑战(WSC)之外,它还增加了诸如常识推理和词义消除等任务。表中给出的其他测试数据集包括:

CB短文本语料库

MultiRC真假问答任务数据集

COPA因果推理

WiC字意义消除

RoBERTa离人类有多远

从SuperGLUE排名来看,RoBERTa的得分仅为人均5.2分,但纽约大学数据科学中心助理教授Sam Bowman也评论了Roberta的推特表现。

ZdQj199mg4OasqWUKJlJUnjmYd5CEXAK61unK0JEVLAFD1565681162413compressflag.png

SuperGLUE代表了我们需要处理的35项任务中最难的一项。对于35个任务中的大多数,BERT本身的性能接近极限。

还有一些事情要注意:

RoBERTa的良好表现极大地受益于丰富的数据集:ReCoRD和MultiRC。将效果转移到不良数据任务更加困难。

WinoGender coref.accuracy表现更好,但代价是更差的奇偶校验。

RTE模型在向下单调推断中表现仍然不佳:例如,它倾向于假设“所有的狗都喜欢抓住他们的耳朵”。 “所有动物都喜欢揉耳朵。”

Sam Bowman认为他认为RoBERTa有一个明确的上限,而且我们对人类表现的估计较低,他认为接下来的5到10个百分点将很难突破。

让我们期待人们通过功率计算数据和变压器推动NLP的程度!

v8VDhPI7Bh=I=PMXbsHE7EdPSGjw30RiTByFvvtDp8n0x1565681162418compressflag.jpg

生成大数据摘要

作者:宁静,曹培新

7月30日,Digest被报道称,完全被谷歌XLNet轰炸的BERT由Facebook升级并变成了“强大优化的BERT方法” - 强大优化的BERT方法,重新掌握GLUE,SQUAD和RACE三个排名名单。

C4u8P57OwLfjs4Kic64D2UUUlLBxH13OBuxaGNdv50TtP1565681162415compressflag.png

RACE测试集的结果表明,RoBERTa的Accyracy比BERT(大)高10%,比XLNet(大)高2%。

HscYh0tz0FBn096BY=8b6Ihy4bNwrr01PxHdY8H4NrXfh1565681162419.jpg

现在,Facebook AI已将RoBERTa提交给SuperGLUE。该列表显示,RoBERTa已经使Bert领先15个百分点,其表现几乎与人性相当。

2xRt0lDQJXKztixFWjAcw7Pz7TgVvgwDDJnYCHWw87YM71565681162415.jpg

从GLUE到SuperGLUE:更加困难

基于GLUE设计,SuperGLUE采用了一系列更加困难的语言理解任务。除了常见的任务识别文本蕴涵(RTE)和Winograd模式挑战(WSC)之外,它还增加了诸如常识推理和词义消除等任务。表中给出的其他测试数据集包括:

CB短文本语料库

MultiRC真假问答任务数据集

COPA因果推理

WiC字意义消除

RoBERTa离人类有多远

从SuperGLUE排名来看,RoBERTa的得分仅为人均5.2分,但纽约大学数据科学中心助理教授Sam Bowman也评论了Roberta的推特表现。

ZdQj199mg4OasqWUKJlJUnjmYd5CEXAK61unK0JEVLAFD1565681162413compressflag.png

SuperGLUE代表了我们需要处理的35项任务中最难的一项。对于35个任务中的大多数,BERT本身的性能接近极限。

还有一些事情要注意:

RoBERTa的良好表现极大地受益于丰富的数据集:ReCoRD和MultiRC。将效果转移到不良数据任务更加困难。

WinoGender coref.accuracy表现更好,但代价是更差的奇偶校验。

RTE模型在向下单调推断中表现仍然不佳:例如,它倾向于假设“所有的狗都喜欢抓住他们的耳朵”。 “所有动物都喜欢揉耳朵。”

Sam Bowman认为他认为RoBERTa有一个明确的上限,而且我们对人类表现的估计较低,他认为接下来的5到10个百分点将很难突破。

让我们期待人们通过功率计算数据和变压器推动NLP的程度!