门户
图库
科技
数据
VR
区块链
学院
论坛
百科
导航
登录
注册
帮助
公社首页
中国人工智能社区
公社版块
公社群组
Group
升级会员
用户名
Email
自动登录
找回密码
密码
登录
立即注册
登录后你可以:
登录
首次使用?
点我去注册
搜索
搜索
本版
帖子
公社群组
用户
道具
勋章
任务
设置
我的收藏
退出
首页
›
智能技术
›
自然语言
›
自然语言的理解和连续表达
返回列表
自然语言的理解和连续表达
[复制链接]
╃茱児謌
2022-6-14 14:52:43
显示全部楼层
|
阅读模式
微软研究院在IJCAI2016的Tutorial上讲述了自己将深度学习、深度神经网络应用于不同场景的情况,之前第二部分提到了深度学习在统计机器翻译和会话中的应用,第三部分是选中自然语言处理任务的连续表达。第四部分是自然语言的理解和连续语言词语的表达。
联合编辑:李尊,章敏,陈圳
自然语言理解,重点在于 建立能与使用自然语言的人类进行交互的智能系统。其研究挑战:1)文本意义表达 2)支持有用推理任务。
连续词语表达包括:
l 多种创建词语矢量的流行办法
l 编码条件共存信息
l 测量语义相似井
语义嵌入将原始文本转换成连续语义空间
嵌入有效的原因在于:
l 词汇语义词相似度
l 文本简单的语义表达
对神经网络模型进行预先训练
词语嵌入模型样本、评估、相关工作
潜在语义分析包括:SVD概括原始数据、同义词典中不存在明确关系、术语矢量投射K维潜在空间、词语相似度等
RNN-LM词语嵌入
SENNA词语嵌入
CBOW/Skip-gram词语嵌入
DSSM:学习词语含义
GloVe:词语表达的全局矢量
语义相关度能够从词语同现次数个概念来观察
评估:语义词相似度
l 数据:人类判断词组
l 词语相似度排名与人类判断之间的关系
l 独立语义嵌入模型通常不能实现最好的结果
评估:关系相似度
判断两组词是否有同样的关系以及为什么它会有效?
意外发现:从递归神经网络语义模型提取的词语嵌入,关系相似度由余弦值得来。
实验结果
在其他数据集上的相似结果
词汇类比评估。
讨论。1.方向相似性无法处理语义关系;2.矢量计算=相似性计算3.通过计算找到最接近的x。
一些相关工作——模拟不同的词汇关系如:判断是同义词还是近义词。
相关工作——词汇嵌入模型如:其它的词汇嵌入模型;Word2Vec的分析和方向相似性;理论论证与统一;评估NLP的矢量空间表示。
神经语言的理解。
知识库:通过储存上百万实体的性能和它们之间的关系捕获世界的知识。
现在的KB在NLP&IR中的一些应用——回答问题,信息提取,网络搜索。
知识库推理-知识库永远不会完整,模拟多关系数据,知识库嵌入效率和精准度都更高。
知识库嵌入:KB中每一个实体都由一个Rd矢量表示,通过fr(Ve1,Ve2)预测(e1,r,e2)是否是正确的。最在KB嵌入方面的工作:张量分解,神经网络。
张量分解-知识库表示(1/2):收集-主-谓-宾-(e1,r,e2)
张量分解-知识库表示(2/2):0输入意味着不正确或者不知道
张量分解对象
测量关系的程度
键入张量分解:关系的主要知识有键入信息,约束和损耗中唯一合法的实体。利用键入信息的好处有三点:模型训练时间短,大KB可高度扩展,预测精度更高。
键入张量分解对象重建误差
加入张量分解对象重建误差
训练过程-交替最小二乘法
实验—KB完成
实体检索
相关性进行检索及其平均精度
知识库的嵌入模式
相关操作的评价函数及其参数
基于神经网络的KB嵌入式方法的经验比较:参数少表现更佳;双线性操作符十分关键;建模时,乘法要优于加法;pre-trained 短语和嵌入式向量对于表现十分关键。
霍恩子句的最小化规则
相关路径中进行学习
自然语言理解
连续的词表达和词汇语义学
知识库嵌入
KB为基础的问题回答和机器理解
语义分析
极具挑战性的语言任务可能会导致重大失误
极具挑战性的语言任务可能会导致重大失误
极具挑战性的语言任务可能会导致重大失误
问题配对有三种方法:通过释义进行语义分析;使用源于单词校对结果的单词表创造短语配对特征;把问题用向量表示。
镶嵌子图模式
使用DSSM确定推理链
深度学习的回答和问题数据集。
把原始版本和匿名版本进行了比较。
神经网络模式中Attentive Reader的具体运行结构图。
神经网络结构中Impatient Reader的运行结构图。
各模式运行结果精准度的比较,其中以NN为基础的模式表现最好。
对所有的问题进行了全面的检查,发现问题在于需用智能的方法创建大规模的受监督数据以及弄清楚理解程度问题。此外好的消息是实体能平等地进行工作且Attentive Reader模式表现最好。坏消息是任务难度较大,需达到最优化(25%的问题还是无法回答)。
连续空间表现对于一些神经网络语义理解任务还是很有帮助的;例如,连续词语表达和词汇任务,知识库镶嵌,以KB为基础的问题回答和机器理解。
在NN和连续表达方面实现了较大进步,例如,文本处理和知识推理。
对于未来展望提出了以下几个方面:
建立一个通用的智能空间
文本,知识和推理等等
从部件模式到端至端解决方法。
总结:
自然语言理解,重点在于 建立能与使用自然语言的人类进行交互的智能系统。此外需要连续词语表达和词汇语义学。
连续词语表达,重点在于知识基础嵌入和基于知识基础的问题回答&机器理解。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
大神点评
2
拜大帝教教主
2022-6-14 20:45:48
显示全部楼层
看起来好像不错的样子
回复
使用道具
举报
81117751
2022-6-17 14:20:01
显示全部楼层
那个啥吧。。。就是这个。。。你知道我要说啥吧。。。
回复
使用道具
举报
发表新帖
回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
本版积分规则
发表回复
回帖后跳转到最后一页
╃茱児謌
注册会员
0
关注
0
粉丝
11
帖子
Ta的主页
发布
加好友
最近发表
“机器人之战”:俄乌冲突1000天激发AI军事化热潮
上海颁发首批无人驾驶车牌?系误读,识别标牌并非车牌
智能穿戴概念30日主力净流出14.08亿元,中兴通讯、大唐电信居前
青岛有屋科技取得一种安装组件及用于智能家居的集成控制装置专利
无人机和反无人机装备亮相中国航展
智能穿戴概念18日主力净流出74.39亿元,三六零、光启技术居前
公社版块
版块推荐
更多版块
智能穿戴
智能家居
机器人
无人驾驶
无人机
反馈吐槽
闲聊灌水
大话智能
大数据
图像识别
自然语言
数据挖掘
大话智能
数据挖掘
北大讲座
清华讲座
网贷观察
股市评论
区块链
闲聊灌水
反馈吐槽
站务通知
关注我们