Zhang在他们的2015年论文“Character-level Convolutional Networks for Text Classification”中运用了该技术。Mueller等人运用相似的策略为其句子相似性模型生成额外的10K训练数据。Wei等人也运用了这种技术作为“轻松数据加强”论文中四个随机加强集合中的一种技术。 为了完成,NLTK提供了对WordNet 的编程访问。读者也可以运用TextBlob API。此外,还有一个名为PPDB的数据库,其中包含数百万个可以经过编程方式下载和运用的短语。
条件预训练言语模型 这项技术由Anaby-Tavor等人首先提出。在他们的论文Not Enough Data? Deep Learning to the Rescue!。Kumar等人的(https://arxiv.org/abs/2003.02245)最新论文。在多个基于Transformer的预训练模型中评价了这个想法。成绩表述如下: