Jade 最后提到,低资源言语(如非洲的一些言语)缺乏可用的数据集是一大成绩。假如我们创造数据集并使其非常容易获得(如将其放在 openAFRICA 上),这将极大地激励大家并降低入门门槛。提供多种言语的测试数据通常就足够了,由于这可以协助我们评价跨言语模型并跟踪进度。另一个数据资源是 South African Centre for Digital Language Resources(SADiLaR),该资源包含很多南非语种。
OpenAI Five 等研讨表明,假如大幅添加数据量和计算量,现有模型可以完成的义务将非常可观。有了足够的数据,现有模型在更大的语境中也能表现出很好的功能。成绩在于,有大量文本的数据非常少见,获取成本也非常昂贵。与言语建模和 skip-thoughts 相似,我们可以想象一个文件级别的无监督义务,要求预测一本书的下一个段落或下一个章节,或者决议下一章应该是哪一章。但是,这个目的很能够太简单——效率低下,无法学习有用的表征。