门户
图库
科技
数据
VR
区块链
学院
论坛
百科
导航
登录
注册
帮助
公社首页
中国人工智能社区
公社版块
公社群组
Group
升级会员
用户名
Email
自动登录
找回密码
密码
登录
立即注册
登录后你可以:
登录
首次使用?
点我去注册
搜索
搜索
本版
帖子
公社群组
用户
道具
勋章
任务
设置
我的收藏
退出
首页
›
智能技术
›
自然语言
›
AI研讨人员携手发表更严厉的自然言语效能评测平台SuperG ...
返回列表
AI研讨人员携手发表更严厉的自然言语效能评测平台SuperGLUE
[复制链接]
说谎。
2019-8-19 06:59:09
显示全部楼层
|
阅读模式
Facebook AI、DeepMind、纽约大学与华盛顿大学的AI研讨人员,在本周共同发表了SuperGLUE平台,这是一个专门用来测量人工智能(AI)自然言语处理(NLP)才能的功能评测平台,缘由是有愈来愈多的对话式AI系统在许多不同的评测上已达到下限,需求更大的应战来改善它们的NLP才能。
这是由于涵盖各种NLP义务的GLUE功能评测平台问世不到一年,便有许多NLP模型超越了GLUE上的人类基准功能。研讨人员阐明,AI社群的合作、NLP竞赛、各种评测平台的出炉、以及代码的释出,都让AI模型疾速改善,在GPT与BERT出炉后,GLUE上的模型功能更是大跃进,最近的模型已然超越人类功能。
不过,即便它们可以超越GLUE上特定义务的人类功能,却依然无法处理某些人类得以完美完成的义务,为了替NLP研讨设定一个全新且更高的门槛,SuperGLUE于焉诞生。
SuperGLUE包含8种不同的义务,其中一之为"选择合理的替代方案"(Choice of Plausible Alternatives,COPA),这是一个因果推理义务,系统先得到一个前提,之后即必须从两个能够的选择中判别其因果,人类在COPA义务的准确性通常可达100%,而BERT则是74%,代表AI模型还有很大的提高空间。
再以最近表现最佳的RoBERTa模型为例,它击败了目前一切的NLU系统,也在"多重句子阅读了解"(Multisentence Reading Comprehension,MultiRC)义务上超越人类功能,但在SuperGLUE上测试RoBERTa之后发现,RoBERTa在许多义务的表现上依然不及人类,阐明了即便是当今最先进的NLU系统,还是存在着某些局限性。
此外,研讨人员还打造了该范畴首个长篇问答材料集与功能评测,要求机器提供复杂且长篇的答案,这是现有算法从未被应战过的事。目前的问答系统次要为简答题,像是"水母有脑吗?"而新的应战则是希望机器可以了解更开放的成绩并提供更具深度的答案,例如"没有脑的水母怎样运作?"以期推进AI可合成不同来源的资讯,并正确回应这类的开放式成绩。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有帐号?
立即注册
x
回复
使用道具
举报
大神点评
3
liping1957
2019-8-19 12:26:31
显示全部楼层
看帖要回,回帖才健康,在踩踩,楼主辛苦了!
回复
使用道具
举报
万绿东源
2019-8-20 14:21:00
显示全部楼层
想知道楼主的感受,怎么样?
回复
使用道具
举报
@Xizi_feukGQ3y
2019-8-21 09:41:55
来自手机
显示全部楼层
我有个小建议,楼主把内容写详细点吧才会吸引更多读者呀。
回复
使用道具
举报
发表新帖
回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
本版积分规则
发表回复
回帖后跳转到最后一页
说谎。
金牌会员
0
关注
0
粉丝
74
帖子
Ta的主页
发布
加好友
最近发表
定档8月16日 | 2024亚洲智能穿戴大会
华为智能眼镜 2评测:可能是上班族最好用的智能穿戴
2023年全球智能可穿戴腕带出货量及竞争格局分析
智能穿戴概念8日主力净流出24.84亿元,光启技术、立讯精密居前
智能穿戴概念11日主力净流入5.62亿元,三六零、兆易创新居前
智能穿戴概念10日主力净流出23.94亿元,立讯精密、中兴通讯居前
公社版块
版块推荐
更多版块
智能穿戴
智能家居
机器人
无人驾驶
无人机
反馈吐槽
闲聊灌水
大话智能
大数据
图像识别
自然语言
数据挖掘
大话智能
数据挖掘
北大讲座
清华讲座
网贷观察
股市评论
区块链
闲聊灌水
反馈吐槽
站务通知
关注我们