NLTK是构建Python程序以处理人类言语数据的抢先平台。它为50多个语料库和词汇资源(如WordNet)提供了易于运用的接口,同时还提供了一套用于分类、标记化、词干、标记、解析和语义推理的文本处理库,工业级NLP库的封装器,以及一个活跃的讨论论坛。由于有一本引见编程基础和计算言语学主题的实际指南,再加上片面的API文档,NLTK合适言语学家、工程师、先生、教育工作者、研讨人员和行业用户。NLTK适用于Windows、Mac OS X和Linux。
GNU Octave代表了一种用于数值计算的高级言语,由于它的命令行界面,用户可以经过它来处理线性和非线性成绩,以及停止其他数值实验。由于它的命令行界面,用户可以经过一种次要与Matlab兼容的言语来处理线性和非线性成绩,并停止其他数值实验。该软件具有弱小的面向数学的语法等特点,并内置了绘图和可视化工具,它是收费软件,可以运转在GNU/Linux、macOS、BSD和Windows上,兼允许多Matlab脚本。与Matlab基本兼容的语法是Octave语法。
StarProbe Data Miner或CMSR Data Miner Suite是一款软件,它为预测建模、分割、数据可视化、统计数据分析和基于规则的模型评价提供了一个集成环境。对于高级用户,还提供了集成分析和规则引擎环境。该软件具有很多特点,如:深度学习建模RME-EP代表了非常弱小的专家系统外壳规则引擎,支持神经网络、自组织地图、决策树、回归等预测建模。它在开发过程中运用了相似SQL的表达式,用户可以非常方便快捷的学习。
KEEL(Knowledge Extraction based on Evolutionary Learning)是一个开源(GPLv3)的Java软件工具,可用于大量不同的知识数据发现义务。KEEL提供了一个简单的基于数据流的GUI,用于设计不同数据集和计算智能算法(特别关注退化算法)的实验,以评价算法的行为。它包含了各种经典的知识提取算法、预处理技术(训练集选择、特征选择、团圆化、缺失值的推算方法等)、基于计算智能的学习算法、混合模型、对比实验的统计方法等。
MALLET被称为Machine Learning for LanguagE Toolkit,是一个基于Java的软件包,用于自然言语统计处理、文档分类、聚类、主题建模、信息提取和其他机器学习运用于文本。它提供了复杂的文档分类工具--用于将文本转换为 "特征 "的高效例程、多种算法(包括奈夫贝叶斯、最大熵和决策树),以及运用几种常用目的评价分类器功能的代码。它还提供了用于从文本中提取命名实体等运用的序列标记工具。
Arcadia Data Instan运用智能加速技术,经过灵敏的拖放式访问完成超快的分析和BI。Arcadia Data Instant提供了一个集群内执行引擎,可以在Apache Hadoop和其他古代数据平台上完成有数据移动的扩展功能。Arcadia Data Instant支持Apache Kafka上的可视化。经过这一点,用户有一个很好的平台来疾速下载一个工具包,并末尾探求Kafka主题的可视化。Arcadia Data Instant提供的次要功能包括衔接、发现、建模、可视化、交互、管理、扩展、优化、安全、共享和发布以及高级分析。