但是,词嵌入等文本编码机制可能会为捕获细微差别带来挑战。例如,bass fish 和 bass player 具有相同的表征。在对长段落进行编码时,它们还可能在结尾丢失掉文章开头获取的上下文。BERT (Bidirectional Encoder Representations from Transformers) 是深度双向的,能够比其他文本编码机制更好地理解和保留上下文。训练语言模型时,遭遇的一个关键挑战是缺少标记数据。BERT 在无监督任务上接受训练,通常使用书籍语料库、英语维基百科等的非结构化数据集。
[attach]822582[/attach]
4►
GPU:加速 NLP
让计算机理解人类语言及所有细微差别,并做出适当的反应,这是 AI 研究人员长期以来的追求。但是,在采用加速计算的现代 AI 技术出现之前,构建具有真正自然语言处理 (NLP) 功能的系统是无法实现的。
一个由数百个核心组成的 GPU,可以并行处理数千个线程。GPU 已成为训练深度学习模型和执行推理的首选平台,因为它们的性能比纯 CPU 平台高 10 倍。