自然言语生成的评价的概念照旧是一个非常有争议的成绩,因此这种重新思索是值得倡导的。
Maxime Peyrard证明,在评价某些评分范围内的表现时,某些自动评价汇总目的是不分歧的。Clark团队根据句子移动的相似性提出了一个新的生成文本评价目的,与标准ROUGE相比,该目的与人类判别的相关性更强。
模型生成的文本往往会遭到理想错误和虚伪陈述的影响。Falke团队研讨了能否可以将自然言语推理系统用于重新陈列输入,作为处理这一成绩的方法。他们发现,“开箱即用”的NLI系统还不足以顺应下游义务,并提供了一些必要的工具,让这些推理系统达到所需的功能。
Maxime Peyrard还停止了更为基础的研讨工作,对冗余、相关性和信息性等某些概念停止了实际上严厉的实际定义。
除了评价相关的工作之外,Sankar团队对传统的递归网络和基于transformer的seq2seq对话模型可以从对话历史中学习的假设提出了质疑。特别是,他们表明这些模型对运用于背景的某些扰动不是非常敏感,从而对对话自然言语生成器的效果提出了应战。