门户
图库
科技
数据
VR
区块链
学院
论坛
百科
导航
登录
注册
帮助
公社首页
中国人工智能社区
公社版块
公社群组
Group
升级会员
用户名
Email
自动登录
找回密码
密码
登录
立即注册
登录后你可以:
登录
首次使用?
点我去注册
搜索
搜索
本版
帖子
公社群组
用户
道具
勋章
任务
设置
我的收藏
退出
首页
›
智能技术
›
自然语言
›
金融范畴中的自然言语处理,弄懂这五个成绩就够了 ...
返回列表
金融范畴中的自然言语处理,弄懂这五个成绩就够了
[复制链接]
兰色的小星星
2019-5-10 12:41:57
显示全部楼层
|
阅读模式
计算机非常擅长运用结构化数据,因此针对大量的数据和表格的处理,它都信手拈来。但是对于人类来说,我们是以非结构化的文字等信息停止交流的。计算机并不擅长处理这些非结构化数据,因此如何让计算机了解人类的言语,不断以来是一大难题。
在本期的MioTech黑板报中,妙盈科技CTO刘涛将经过五个成绩,为我们解释自然言语处理(NLP)的基本概念与发展历程,以及针对中文与英文NLP面临的成绩有哪些不同,金融范畴中的NLP曾经有了哪些运用?又存在哪些应战?
什么是自然言语处理?与其他范畴相比,针对金融范畴的自然言语处理有何不同?
NLP本身是人工智能中的一个重要的方向,简单来说,处理自然言语的过程就是让机器去了解人的文本或言语,其中如翻译、语音辨认、语义了解、智能问答,知识图谱等都属于NLP的范畴。
自计算机诞生伊始,人类就努力于让机器来了解我们言语。随着人工智能、计算机迷信、信息工程、统计学、甚至言语学等学科知识的不断提高,目前NLP曾经拥有了大量的商业运用,如机器翻译(Google翻译、有道翻译等)、知识图谱(以Google为代表的搜索引擎)、智能问答(Apple的Siri、亚马逊的Alexa以及各种智能机器人)等等。
但是,金融范畴的NLP目前仍处于探求阶段,金融本身是一个专业性很高的范畴,很多词汇在金融语境下会产生特殊含义,一切的子成绩都会有一个独特的了解方式,而且金融范畴衡量处理结果的方式也与其他范畴不同。比如针对舆情分析,金融范畴要求对市场将来的走势有一定的预见性。
妙盈科技AMI系统中对旧事舆情停止分类与评分处理
因此,金融范畴的NLP需求预备特殊的训练数据集,而目前NLP一切方法都是基于大量的数据集基础上,数据集的缺乏也是目前NLP在金融范畴所面临的最大成绩之一,这也是金融范畴高度的专业性与深度导致的。
在妙盈科技,我们运用NLP专注于处理NER、关系提取以及知识图谱的建立。应用曾经关联好的其他数据对数据集停止补充,也就是应用知识图谱来补偿训练集的不足。
MioTech AMI - 知识图谱
自然言语处理的发展阅历了哪些阶段?遇到了哪些应战?
NLP的发展进程与人工智能发展的脚步大体相反,都阅历了如下的发展阶段:
20世纪50 - 80 年代:简单的完成人类掌握的规则,基于人类的阅历;
20世纪90年代 - 2000年左右:次要基于统计学的原理与方法;
2000年之后至今,由于数据的大幅加强、计算力的大幅提升,人们也逐渐末尾将如日中天的深度学习方法引入到NLP范畴中,在机器翻译、问答系统、自动摘要等方向获得了严重打破。
但同时也该当留意到,NLP目前也照旧面临诸多的应战。人类的言语非常简练,在很多对话中是省略背景知识的。人类本人是可以很容易地了解这种省略的背景知识,但在NLP的过程中却能够是很大的应战。
比如“司机,我在前门下车”这句话,当机器不了解详细语境的时分,就难以分清终究在公交车前门,还是在北京前门站下车。
面向中文与英文的NLP存在哪些不同?中文NLP,特别是在金融范畴存在哪些难点,有没有某种算法是最佳的?
从言语本身下去看,英文比中文更直接,应用名词就可以很大程度上判别出一句话的语义。作为表音文字,英文还可以经过语法、时态、词性、词根、词缀、单复数等方式来让机器判别真实意图。
中文是象形文字,没有各种词性的转换,也无法对某个单字停止拆分,因此机器一定要经过上下文语境来判别详细语义。由于中文的特殊性,同一个义务、同一个模型在英文语境的表现普通要比中文好。
中文分词是中文NLP的难点之一。如“结婚的和尚未结婚的”,应该分词为“结婚/的/和/尚未/结婚/的”,还是“结婚/的/和尚/未/结婚/的”,不同的分词方法会产生一定的歧义。再比如,“美国会经过对台售武法案”,我们既可以切分为“美国/会/经过对台售武法案”,又可以切分成“美/国会/经过对台售武法案”。
随着深度学习的普遍运用,中文与英文在言语上的差异也逐渐变成训练数据量上的差异,以往在NLP范畴,可供运用的中文数据量比英文数据要少的多,这是目前中文NLP的难点之一。但是随着有越来越多的人投入到中文人工智能以及NLP范畴的研讨中来,中文数据集不足的成绩正在逐年改善。
在金融范畴,针对基础性成绩,中英文所处的阶段其实大体相反,但是针对如情感分析、市场预测等复杂成绩,由于要结合详细的语境以及相应的运用场景,同时要思索训练的数量级成绩,无论是中文还是英文的NLP要走的路都还有很多。
一个弱小的NLP系统可以协助金融机构处理哪些实践成绩?
全网舆情监控、产业链分析、让机器协助金融机构阅读大量旧事。
例如,商业银行希望运用更片面的数据停止企业的信贷风险管理,提早感知企业的潜在风险。目前常规的风险评价方法是根据企业公布的年报,并综合信贷员实地调查的结果停止判别,但是由于企业本身风险报出通常具有滞后性,公开信息覆盖度不高,看到的往往只是冰山一角,因此判别风险的手腕非常单一。这也是NLP与人工智能可以发挥作用的地方。
NLP可以对信息停止多维关系的发掘,评价企业之间的关系,并经过知识图谱直观呈现企业之间的关联,提早设立预警信号,一旦企业关系网内的相关对象出现恣意变动,便可根据关系权重,疾速地评价对整个关系网的影响程度。
知识图谱在企业信誉风险预测中的作用
根据上市公司公开财报停止产业链发掘是我们对NLP的又一运用。产业链数据以一切A股上市公司财报为原始数据源,根据公开财报中的主营业务构成,提取关键词后输入至预训练的神经网络中,对其停止向量表达。接上去,我们对输入向量停止基于密度的聚类计算,输入不同密度的集群,并最终停止集群命名。
产业链数据提取原理——基于密度的聚类算法
MioTech AMI 产业链数据展现
将来,中文NLP将会有哪些打破?
随着每天产生的数据越来越多,可供机器停止训练的数据集也会不断增多。同时,随着深度学习的发展,算法的不断提高,将不断降低对人类以往阅历的依赖度,就像Alpha Go,摆脱人类阅历后,它会表现愈加出色。特别是在BERT模型出现后,刷新了很多传统NLP成绩的准确程度,甚至在机器阅读了解上,有些模型的准确程度曾经片面超越人类。
从中文角度,NLP将向着深度学习的方向继续发展,随着数据集越来越丰富,针对复杂语义上的关系抽取将会更准确、针对情感辨认也将逐渐提高。妙盈科技,作为这一赛道中面向金融范畴的人工智能公司,随着NLP算法的发展,我们的核心技术即实体辨认与关系提取将会愈加准确,提供的运用也将愈发成熟。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有帐号?
立即注册
x
回复
使用道具
举报
大神点评
2
残缺的汤圆
2019-5-10 21:18:13
显示全部楼层
看帖要回,回帖才健康,在踩踩,楼主辛苦了!
回复
使用道具
举报
风信子282
2019-5-11 11:21:55
显示全部楼层
回个帖子,下班咯~
回复
使用道具
举报
发表新帖
回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
本版积分规则
发表回复
回帖后跳转到最后一页
兰色的小星星
金牌会员
0
关注
0
粉丝
109
帖子
Ta的主页
发布
加好友
最近发表
马斯克:可能在2025年底前出售人形机器人Optimus!机器人ETF涨超
定档8月16日 | 2024亚洲智能穿戴大会
华为智能眼镜 2评测:可能是上班族最好用的智能穿戴
2023年全球智能可穿戴腕带出货量及竞争格局分析
智能穿戴概念8日主力净流出24.84亿元,光启技术、立讯精密居前
智能穿戴概念11日主力净流入5.62亿元,三六零、兆易创新居前
公社版块
版块推荐
更多版块
智能穿戴
智能家居
机器人
无人驾驶
无人机
反馈吐槽
闲聊灌水
大话智能
大数据
图像识别
自然语言
数据挖掘
大话智能
数据挖掘
北大讲座
清华讲座
网贷观察
股市评论
区块链
闲聊灌水
反馈吐槽
站务通知
关注我们