找回密码
 立即注册
搜索

自然言语处理(NLP)范畴核心名词解释与技术

信息抽取(IE)

信息抽取是将嵌入在文本中的非结构化信息提取并转换为结构化数据的过程,从自然言语构成的语料中提取出命名实体之间的关系,是一种基于命名实体辨认更深层次的研讨。信息抽取的次要过程有三步:首先对非结构化的数据停止自动化处理,其次是针对性的抽取文本信息,最后对抽取的信息停止结构化表示。信息抽取最基本的工作是命名实体辨认,而核心在于对实体关系的抽取。 [6]
自动文摘

自动文摘是应用计算机按照某一规则自动地对文本信息停止提取、集合成简短摘要的一种信息紧缩技术,旨在完成两个目的:首先使言语的简短,其次要保留重要信息。 [6]
语音辨认技术

语音辨认技术就是让机器经过辨认和了解过程把语音信号转变为相应的文本或命令的技术,也就是让机器听懂人类的语音,其目的是将人类语音中的词汇内容转化为计算机可读的数据。要做到这些,首先必须将延续的讲话分解为词、音素等单位,还需求建立一套了解语义的规则。语音辨认技术从流程上讲有前端降噪、语音切割分帧、特征提取、形状婚配几个部分。而其框架可分成声学模型、言语模型和解码三个部分。 [7]
Transformer 模型

Transformer 模型在2017 年,由Google 团队中初次提出。Transformer 是一种基于留意力机制来加速深度学习算法的模型,模型由一组编码器和一组解码器组成,编码器担任处理恣意长度的输入并生成其表达,解码器担任把新表达转换为目的词。Transformer 模型应用留意力机制获取一切其他单词之间的关系,生成每个单词的新表示。Transformer 的优点是留意力机制可以在不思索单词地位的状况下,直接捕捉句子中一切单词之间的关系。模型丢弃之前传统的encoder-decoder 模型必须结合RNN 或者CNN(Convolutional Neural Networks, CNN)的固有形式,运用全Attention 的结构代替了LSTM,减少计算量和提高并行效率的同时不损害最终的实验结果。但是此模型也存在缺陷。首先此模型计算量太大,其次还存在地位信息应用不分明的成绩,无法捕获长间隔的信息。 [8]
基于传统机器学习的自然言语处理技术

自然言语处理可将处理义务停止分类,构成多个子义务,传统的机械学习方法可应用SVM(支持向量机模型)、

Markov(马尔科夫模型)、CRF(条件随机场模型)等方法对自然言语中多个子义务停止处理,进一步提高处理结果的精度。但是,从实践运用效果下去看,仍存在着以下不足:(1)传统机器学习训练模型的功能过于依赖训练集的质量,需求人工标注训练集,降低了训练效率。(2)传统机器学习模型中的训练集在不同范畴运用会出现差异较大的运用效果,减弱了训练的适用性,暴显露学习方法单一的弊端。若想让训练数据集适用于多个不同范畴,则要耗费大量人力资源停止人工标注。(3)在处理更高阶、更笼统的自然言语时,机器学习无法人工标注出来这些自然言语特征,使得传统机器学习只能学习预先制定的规则,而不能学规则之外的复杂言语特征。 [9]
基于深度学习的自然言语处理技术

深度学习是机器学习的一大分支,在自然言语处理中需运用深度学习模型,如卷积神经网络、循环神经网络等,经过对生成的词向量停止学习,以完成自然言语分类、了解的过程。与传统的机器学习相比,基于深度学习的自然言语处理技术具有以下优势:(1)深度学习可以以词或句子的向量化为前提,不断学习言语特征,掌握更高层次、愈加笼统的言语特征,满足大量特征工程的自然言语处理要求。(2)深度学习无需专家人工定义训练集,可经过神经网络自动学习高层次特征。
回复

使用道具 举报

大神点评3

赞一个,赞一个
回复

使用道具 举报

狼飞天地 2021-1-8 15:49:42 显示全部楼层
有点兴趣,要有详细介绍就好啦。
回复

使用道具 举报

疤目妖 2021-1-9 14:12:50 显示全部楼层
不错 支持下
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies