找回密码
 立即注册
搜索

“英雄”式自然言语工具引荐 免于选择!

大数据分析是商业智能的重要工具,而自然言语处理(NLP)工具可协助处理来自不同来源的非结构化数据流。

由于Python编程言语是最合适大数据处理的理想之一,因此许多工具和库都是为它而生。像Jupyter和其他大数据可视化工具的处理方案就是用Python编写的,许多其他软件工具经过API或各种包装提供本地Python功能支持。这就是为什么有很多NLP库的缘由,还有更多的是定期的服务。

由于这个缘由,“Python NLP库选择”的成绩能够会频繁出现。因此,本文选择了5个NLP工具以免去众多的选择纠结:

1.来自斯坦福大学的CoreNLP

2.NLTK,在Python的NLP库中被最广泛提到的

3.TextBlob,一个用户敌对且直观的NLTK界面

4.Gensim,一个文件相似性分析的库

5.SpaCy,为功能而建的一个工业强度的NLP库

当然,这不代表这5个Python NLP库就可以完全代表了一切可用的工具。但是,我们以为它们是NLP范畴的中坚力气,掌握了这5个工具之后,你将会了解NLP处理的一切基础知识(以及一些高级技巧),并可以根据你的项目需求,选择最合适的自然言语处理工具,并迅速掌握它。

CoreNLP,以其速度而出名的Java库

CoreNLP是斯坦福大学建立和维护的消费处理方案。该库针对速度停止了优化,并具有词性标注(PoS)标签、形式学习解析、标题实体辨认等功能。由于它最后是用Java编写的,因其高速度而遭到高度评价,并且由于运用了专门的包装器而可以支持多种言语(包括Python)。 CoreNLP如今在消费环境中被广泛运用,由于它被抛光,并提供了准确的结果。

NLTK是提到的最广泛的NLP库

NLTK代表自然言语工具包(Natural Language ToolKit),它是学习NLP域的窍门的最佳处理方案。它的模块化结构有助于了解组件之间的依赖关系,并获得第一手的体验,为处理某些义务创建合适的模型。 NLTK自发布以来,协助处理了自然言语处理各个方面的多个成绩。

有多个指南将协助任何人都能掌握NLTK。说假话,假如不这样做是不明智的,由于这是一个相当复杂的处理方案。但是,一旦掌握,NLTK就可以成为文本分析研讨者的优秀“操场”。

TextBlob,运用NLTK的最佳方式

TextBlob是NLTK的一个接口,可以将文本处理转换变2成一个简单且相当愉快的过程,由于它具有丰富的功能和平滑的学习曲线,这是由于它有详细和易于了解的文档。把 TextBlob放在巨人的肩膀上,可以简单地添加各种组件,如情感分析器和其他方便的工具。它可以用于各种NLP模型的疾速原型设计,并且可以很容易地长大为片面的项目。

Gensim,一个文档采用相似性分析的库

虽然Gensim不像以前的组件那样无处不在、全能,但它的确有一个亮点。这个范畴是主题建模和文档相似性比较,高度专业化的Gensim在那里没有任何等同。提供像LDA(或潜在Dirichlet分配)这样的工具,可扩展且弱小,你可以信任NLP项目的几个关键组件工具,更不用说主题建模是古代NLP迷信中最有吸引力和最有希望的范畴之一。

SpaCy,一个拥有高功能的库

用Cython写的,SpaCy不能为任何义务提供50多种处理方案,就像NLTK一样。理想上,SpaCy只提供一个(坦率地说是最好的)处理方案,从而消弭了本人选择最优道路的成绩,保证了建立的模型精简、高效。此外,该工具的功能曾经非常弱小,并且会定期添加新功能。

由于这是该范畴的最新的补充,SpaCy目前在被视为一个新的“孩子”。这个处理方案目前只能运用英文文本。但是,由于相似C的疾速功能,SpaCy提供了一个有目共睹的NLP方法,优于其他竞争对手。尝试一次,或许你就不会再去寻求另一种选择。

结论

当你紧紧抓住这5个自然言语处理的工具后,你将可以在很短的工夫内学习任何其他的库。但是,我们确信,没有必要这样做,由于TextBlob,SpaCy,Gensim和CoreNLP的NLTK几乎可以涵盖任何NLP项目的一切需求。你有其他想法吗?可以在回复区与大家停止交流。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评2

孺灼 2018-12-17 17:53:06 来自手机 显示全部楼层
来啊,互相伤害啊
回复

使用道具 举报

hywjp 2018-12-18 07:22:15 来自手机 显示全部楼层
我也来顶一下..
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies