自然语言理解和生成对于 AI 系统来说是一大难题,语言的复杂性和模糊性对 AI 系统提出了很大挑战。今天,斯坦福教授、IJCAI 卓越研究奖得主 Yoav Shoham 创办的公司 AI21 Labs 提出一种能够显著提升词汇消歧能力的新模型,并发布了可控性优于其他前沿文本生成系统的「HAIM」。AI21 Labs 的愿景是构建「具备前所未有的优秀自然语言理解和生成能力」的 AI 系统。
给出一个包含同形异义词(homonym)的句子,如「He is a great bass player who hates eating bass」,人类可以相当自信地理解前一个「bass」是一种乐器贝斯,后一个「bass」是一种淡水鱼。而 AI 算法很可能无法解决如此简单的文本歧义问题。「威诺格拉德模式」(Winograd Schema,机器需要识别问题中的前指关系,即指出问题中某一代词的先行词)也能难倒 AI 系统。经典例子是「The trophy doesn』t fit in the suitcase because it is too big.」。这句话中,AI 系统很难确定「it」指「trophy」还是「suitcase」。
为了教会算法更好地理解人类语言的歧义现象,以色列研究公司 AI21 Labs 今日发布论文《SenseBERT: Driving Some Sense into BERT》,提出一种能够显著提升词汇消歧能力的新模型,该模型在复杂的 Word in Context (WiC) 语言任务中取得了当前最优结果。
HAIM 的名字也是自己起的。研究人员输入开头「The team needed a name. The best suggestion...」(这个团队需要一个名字,最佳建议是……)和对应的结尾「...everybody agreed it was a great name for a state-of-the-art natural language generator.」(……每个人都认为这对当前最优的自然语言生成器而言是一个绝佳的名字)。然后模型提出了「HAIM」,研究者对这个缩略词进行了逆向工程,得到了「Halfway Acceptable Interpolating Machine」。(Shoham 博士称其为「玩笑式的事后合理化」。)