NLTK是构建Python程序以处理人类语言数据的领先平台。它为50多个语料库和词汇资源(如WordNet)提供了易于使用的接口,同时还提供了一套用于分类、标记化、词干、标记、解析和语义推理的文本处理库,工业级NLP库的封装器,以及一个活跃的讨论论坛。由于有一本介绍编程基础和计算语言学主题的实践指南,再加上全面的API文档,NLTK适合语言学家、工程师、学生、教育工作者、研究人员和行业用户。NLTK适用于Windows、Mac OS X和Linux。
GNU Octave代表了一种用于数值计算的高级语言,由于它的命令行界面,用户可以通过它来解决线性和非线性问题,以及进行其他数值实验。由于它的命令行界面,用户可以通过一种主要与Matlab兼容的语言来解决线性和非线性问题,并进行其他数值实验。该软件具有强大的面向数学的语法等特点,并内置了绘图和可视化工具,它是免费软件,可以运行在GNU/Linux、macOS、BSD和Windows上,兼容许多Matlab脚本。与Matlab基本兼容的语法是Octave语法。
StarProbe Data Miner或CMSR Data Miner Suite是一款软件,它为预测建模、分割、数据可视化、统计数据分析和基于规则的模型评估提供了一个集成环境。对于高级用户,还提供了集成分析和规则引擎环境。该软件具有很多特点,如:深度学习建模RME-EP代表了非常强大的专家系统外壳规则引擎,支持神经网络、自组织地图、决策树、回归等预测建模。它在开发过程中使用了类似SQL的表达式,用户可以非常方便快捷的学习。
KEEL(Knowledge Extraction based on Evolutionary Learning)是一个开源(GPLv3)的Java软件工具,可用于大量不同的知识数据发现任务。KEEL提供了一个简单的基于数据流的GUI,用于设计不同数据集和计算智能算法(特别关注进化算法)的实验,以评估算法的行为。它包含了各种经典的知识提取算法、预处理技术(训练集选择、特征选择、离散化、缺失值的推算方法等)、基于计算智能的学习算法、混合模型、对比实验的统计方法等。
MALLET被称为Machine Learning for LanguagE Toolkit,是一个基于Java的软件包,用于自然语言统计处理、文档分类、聚类、主题建模、信息提取和其他机器学习应用于文本。它提供了复杂的文档分类工具--用于将文本转换为 "特征 "的高效例程、多种算法(包括奈夫贝叶斯、最大熵和决策树),以及使用几种常用指标评估分类器性能的代码。它还提供了用于从文本中提取命名实体等应用的序列标记工具。
Arcadia Data Instan使用智能加速技术,通过灵活的拖放式访问实现超快的分析和BI。Arcadia Data Instant提供了一个集群内执行引擎,可以在Apache Hadoop和其他现代数据平台上实现无数据移动的扩展性能。Arcadia Data Instant支持Apache Kafka上的可视化。通过这一点,用户有一个很好的平台来快速下载一个工具包,并开始探索Kafka主题的可视化。Arcadia Data Instant提供的主要功能包括连接、发现、建模、可视化、交互、管理、扩展、优化、安全、共享和发布以及高级分析。