收藏 | 43个顶级收费数据发掘软件

原本的我 · 2020-7-2 17:17:15

▲点击关注，播种更多GIS精彩

数据发掘是在大型数据集中发现形式的计算过程，触及到运用人工智能、机器学习、统计分析和数据库系统的方法，目的是从数据集中提取信息，并将其转化为可了解的结构，以便进一步运用。

在当今的商业市场中，客户与企业、服务甚至产品之间的接触程度曾经发生了变化。公司曾经经过Facebook、Twitter和WhatsApp等社交平台变得容易访问，使其在线存在变得突出。这些平台提供了宝贵的数据，这些数据是非结构化的。这就是为什么大多数公司需求数据发掘工具的缘由。

数据发掘软件允许不同的企业从不同的平台搜集信息，并将数据用于各种目的，如市场评价和分析。数据发掘协助用户跟踪一切的重要数据，并应用这些数据来改善业务。此外，在商业环境中，该软件在做出明智的决策方面也变得非常重要。

数据发掘软件协助探求未知的形式，这对企业的成功具有重要意义。实践的数据发掘义务是对大量数据停止自动分析，以提取以前未知的、风趣的形式，如聚类分析、异常记录(异常检测)和依赖关系(关联规则发掘、顺序形式发掘)。

顶级收费数据发掘软件

易于运用的界面：数据发掘软件具有易于运用的GUI，可疾速分析数据。

预处理：数据预处理是数据发掘中的重要步骤，由于它触及到将原始数据转换为可了解的格式的过程。它触及数据清算，以处理缺失值和不分歧的成绩。数据集成和转换也正在进入数据预处理。

可扩展的处理：数据发掘软件允答应扩展的处理。这是从单个用户系统到大型组织处理。换句话说，该软件可以根据用户数量和要处理的数据大小停止扩展。

高功能：数据发掘软件经过高功能数据发掘节点提高了功能，特别是在处理大量数据的公司中。发掘工具开发了一个环境，可以更快地产生业务结果。

异常检测：辨认能够风趣的异常数据记录或需求进一步调查的数据错误。

关联规则学习：搜索变量之间的关系。

聚类：在数据中以某种方式或另一种“相似”方式发现组和结构而不运用数据中的已知结构的义务。

分类：概括已知结构以运用于新数据的义务。

回归：试图找到一个函数，该函数以最小的误差对数据停止建模，即用于估计数据或数据集之间的关系。

数据汇总：数据发掘工具应可以将数据紧缩为内容丰富的表示方式。通常，制表之类的方法是用于汇总大型数据集的常用技术。该软件提供了交互式数据预备工具。

01 Orange

Orange是一个开源数据可视化和分析工具。数据发掘经过可视化编程或Python脚本完成。该工具具有用于机器学习的组件，用于生物信息学的附加组件和文本发掘，并且具有用于数据分析的功能。Orange是一个Python库。Python脚本可以在终端窗口，PyCharm和PythonWin等集成环境或iPython这样的shell中运转。

02 Anaconda

Anaconda是一个由Python支持的开放数据迷信平台。Anaconda的开源版本是Python和R的高功能发行版，其中包括100多个用于数据迷信的最受欢迎的Python，R和Scala软件包。还可以访问720多个软件包，这些软件包可以轻松地与conac，Anaconda附带的软件包，依赖项和环境管理器一同安装。包括最受欢迎的Python，R＆Scala软件包，用于统计，数据发掘，机器学习，深度学习，模拟和优化，地理空间，文本和NLP，图形和网络，图像分析。

03 R Software Environment

R是一个统计计算和图形的收费软件环境。它可以在各种UNIX平台、Windows和MacOS上编译和运转。R是一套集成的软件设备，用于数据处理、计算和图形显示。其中一些功能包括：有效的数据处理和存储设备、一套对数组特别是矩阵停止计算的运算符、一套大型、连接、综合的数据分析中间工具、直接在计算机上或在硬拷贝上停止数据分析和显示的图形设备，以及包括条件在内的发达、简单和有效的编程言语。

04 Scikit-learn

Scikit-learn是一个面向Python编程言语的开源机器学习库，它的特点是提供了各种分类、回归和聚类算法，包括支持向量机、随机森林、梯度提升、k-means和DBSCAN，并被设计为与Python数值和迷信库NumPy和SciPy互操作。分类：辨认一个对象属于哪一类运用。渣滓邮件检测，图像辨认。算法。SVM，最近邻，随机森林。回归：预测与对象相关的延续值属性。运用：药物反应、股票价格。药物反应、股票价格算法：SVR、岭回归。SVR，山脊回归聚类 :将相似的对象自动分组为集合。

05 Weka Data Mining

Weka是一个用于数据发掘义务的机器学习算法的集合。这些算法既可以直接运用于数据集，也可以从你本人的Java代码中调用。Weka的功能包括机器学习、数据发掘、预处理、分类、回归、聚类、关联规则、属性选择、实验、工作流和可视化。Weka是用Java编写的，由新西兰怀卡托大学开发。Weka的一切技术都是基于这样的假设：数据是以单个平面文件或关系的方式存在的，其中每个数据点由固定数量的属性描画Weka提供了对SQL数据库的访问……

06 Shogun

Shogun是一个用C++编写的收费开源工具箱。它为机器学习成绩提供了许多算法和数据结构。Shogun的重点是内核机，如用于回归和分类成绩的支持向量机。Shogun还提供了隐藏马尔科夫模型的残缺完成。工具箱无缝地允许轻松结合多种数据表示、算法类和通用工具。这使得数据管道的疾速原型化和新算法的可扩展性成为能够。它如今提供的功能跨越了机器学习方法的整个空间，包括分类、回归、数据分析等许多经典方法。

07 DataMelt

DataMelt，即DMelt，是一款用于数值计算、统计、分析大数据量（"大数据"）和迷信可视化的软件。该程序可用于许多范畴，如自然迷信、工程、金融市场的建模和分析。DMelt是一个计算平台。它可以在不同的操作系统上运用不同的编程言语。与其他统计程序不同，它不受单一编程言语的限制。DMelt可以与多种脚本言语一同运用，如Python/Jython，BeanShell，Groovy，Ruby，以及与Java一同运用。最片面的软件。

08 Natural Language Toolkit

NLTK是构建Python程序以处理人类言语数据的抢先平台。它为50多个语料库和词汇资源（如WordNet）提供了易于运用的接口，同时还提供了一套用于分类、标记化、词干、标记、解析和语义推理的文本处理库，工业级NLP库的封装器，以及一个活跃的讨论论坛。由于有一本引见编程基础和计算言语学主题的实际指南，再加上片面的API文档，NLTK合适言语学家、工程师、先生、教育工作者、研讨人员和行业用户。NLTK适用于Windows、Mac OS X和Linux。

09 Apache Mahout

Apache Mahout项目的目的是构建一个疾速创建可扩展的高功能机器学习运用的环境。Apache Mahout是一个简单且可扩展的编程环境和框架，用于构建可扩展的算法，包含了Scala和Apache Spark、H2O、Apache Flink的各种预制算法。它还运用了Samsara，它是一个相似R语法的向量数学实验环境，可以在规模上工作。Apache™ Mahout是一个可扩展的机器学习算法库，在Apache Hadoop之上完成，运用MapReduce范式。

10 GNU Octave

GNU Octave代表了一种用于数值计算的高级言语，由于它的命令行界面，用户可以经过它来处理线性和非线性成绩，以及停止其他数值实验。由于它的命令行界面，用户可以经过一种次要与Matlab兼容的言语来处理线性和非线性成绩，并停止其他数值实验。该软件具有弱小的面向数学的语法等特点，并内置了绘图和可视化工具，它是收费软件，可以运转在GNU/Linux、macOS、BSD和Windows上，兼允许多Matlab脚本。与Matlab基本兼容的语法是Octave语法。

11 GraphLab Create

GraphLab Create是一个机器学习平台，用于构建智能、预测性运用，触及清算数据、开发特征、训练模型以及创建和维护预测性服务。这些智能运用为包括引荐人、情感分析、欺诈检测、流失预测和广告定位在内的用例提供预测。训练好的模型可以部署在Amazon Elastic Compute Cloud (EC2)上，并经过Amazon CloudWatch停止监控。可以经过 RESTful API 对它们停止实时查询，并经过可视化仪表板查看整个部署管道。对于GraphLab Create用户来说，从原型设计到消费的工夫大大延长。

12 ELKI

ELKI框架是用Java编写的，围绕着一个模块化的架构。目前包含的算法大多属于聚类、离群检测和数据库索引。ELKI的一个关键概念是允许恣意算法、数据类型、间隔函数和索引的组合，并评价这些组合。当开发新的算法或索引结构时，现有的组件可以反复运用和组合。ELKI是围绕数据库核心建模的，它采用垂直数据规划，将数据存储在列组中。

13 Apache UIMA

非结构化信息管理运用程序是分析大量非结构化信息的软件系统，以发现与最终用户相关的知识。一个UIM运用程序的例子能够会摄取纯文本，并辨认实体，如人、地点、组织；或关系，如works-for或located-at UIMA使运用程序可以被分解成组件，例如 "言语辨认"=>"言语特定分割"=>"句子边界检测"=>"实体检测（人名/地名等）"。每个组件完成框架定义的接口，并经过XML描画符文件提供自我描画的元数据。

14 KNIME Analytics Platform Community

KNIME分析平台是数据驱动创新的抢先的开放式处理方案，协助你发现隐藏在数据中的潜力，发掘新的洞察力，或预测新的将来。KNIME分析平台拥有超过1000个模块，数百个随时可运转的示例，片面的集成工具，以及最广泛的高级算法选择，是任何数据迷信家的完美工具箱。大量的原生节点、社区贡献和工具集成使 KNIME 分析平台成为任何数据迷信家的完美工具箱。

15 TANAGRA

Tanagra代表了学术和研讨用途的收费数据发掘软件。它提供了探求性数据分析、统计学习、机器学习和数据库范畴的多种数据发掘方法。它是SIPINA的后继者，这意味着它提供了各种监督学习算法，尤其是决策树的交互式和可视化构建。由于它不只包含了监督学习，还包含了聚类、因子分析、参数和非参数统计、关联规则、特征选择和构造算法等其他范式，所以Tanagra非常弱小。

16 Rattle GUI

Rattle是收费的开源软件，源代码可以从Bitbucket仓库中获得。Rattle给用户提供了审查代码的自在，用户可以将其用于任何用户喜欢的目的，也可以随意扩展，不受限制。Rattle是一个盛行的运用R停止数据发掘的GUI，它可以呈现数据的统计和可视化摘要，转换可以随时建模的数据，从数据中建立无监督和监督模型，以图形方式呈现模型的功能，并对新数据集停止评分。

17 CMSR Data Miner

StarProbe Data Miner或CMSR Data Miner Suite是一款软件，它为预测建模、分割、数据可视化、统计数据分析和基于规则的模型评价提供了一个集成环境。对于高级用户，还提供了集成分析和规则引擎环境。该软件具有很多特点，如：深度学习建模RME-EP代表了非常弱小的专家系统外壳规则引擎，支持神经网络、自组织地图、决策树、回归等预测建模。它在开发过程中运用了相似SQL的表达式，用户可以非常方便快捷的学习。

18 OpenNN

OpenNN是一个用C++编程言语编写的开源类库，它完成了机器学习研讨的次要范畴--神经网络。该库完成了恣意层数的非线性处理单元，用于监督学习。这种深度架构可以设计出具有通用近似特性的神经网络。OpenNN的次要优势是其高功能。它采用C++开发，以完成更好的内存管理和更高的处理速度，并经过OpenMP完成CPU并行化，用CUDA完成GPU加速。OpenNN是用ANSI C++编写的。

19 Dataiku DSS Community

Dataiku DSS是数据迷信家、数据分析师和工程师团队的协作式数据迷信软件平台，可供数据迷信家、数据分析师和工程师团队更高效地探求、原型化、构建和交付本人的数据产品。Dataiku开发了独特的高级分析软件处理方案，使企业可以更高效地构建和交付本人的数据产品。Dataiku DSS为数据迷信家和初级分析师提供了一个协作和基于团队的用户界面，为数据项目的开发和部署提供了一个一致的框架，并可立刻访问从头末尾设计数据产品所需的一切功能和工具。

20 DataPreparator

DataPreparator是一款收费的软件工具，旨在协助完成数据分析和数据发掘中常见的数据预备（或数据预处理）义务。DataPreparator提供的功能包括：字符删除、文本交换、日期转换、删除所选属性、移动所选属性、等宽、等频、等频从分组数据中删除含有缺失值的记录、删除含有缺失值的属性、推算缺失值、从模型中预测缺失值（依赖树、奈夫贝叶斯模型）、包括缺失值形式、Z-score metho。方块图法，创建二元属性，用指数交换名义值，减少标签数量，十进制，线性，双曲正切，软最大……

21 LIBLINEAR

LIBLINEAR是一个开源库，数据迷信家、开发者和终端用户都运用它来执行大规模的线性分类。LIBLINEAR易于运用的命令工具和库调用使数据迷信家和开发人员可以运用LIBLINEAR来执行向量机的物流、回归和线性支持。有了LIBLINEAR，开发人员和数据迷信家可以运用与LINLINEAR通用SVM求解器中的LIBSVM相反的数据格式，LINLINEAR通用SVM求解器也有相似的用法。LINLINEAR提供了几个机器言语接口，可供数据迷信家和开发人员运用。

22 Chemicalize.org

Chemicalize提供即时的化学信息学处理方案。它是一个弱小的化学计算、搜索和文本处理的在线平台。计算视图为任何分子结构提供基于结构的预测。可用的计算包括元素分析，称号和标识符，pKa，logP/logD，以及溶解度。搜索视图可以让你对Chemicalize数据库停止基于文本和基于结构的搜索，以找到网页来源和相关结构的结果。您甚至可以结合基于文本和结构的查询来完成高级搜索功能。

23 Vowpal Wabbit

Vowpal Wabbit（VW）项目是由Microsoft Research和（先前）Yahoo！资助的一种疾速的核心学习系统。研讨。可经过邮件列表获得支持。拥有疾速学习算法的方法有两种：（a）从慢速算法末尾并加疾速度，或者（b）建立本质上疾速的学习算法。这个项目是关于方法（b）的，目前它曾经成为一种形状，对于其别人来说，它可以作为研讨和实验的平台。

24 mlpy

Mlpy被称为机器学习Python，代表了一种基于NumPy / SciPy（用于数学，迷信和工程的基于Python的开源软件生态系统）和GNU迷信库（代表C和C的数值库）构建的Python机器学习方法。提供大量数学例程（例如随机数生成器，特殊函数和最小二乘拟合）的C++程序员。针对有监督和无监督的成绩提供了广泛的最新机器学习方法，mlpy旨在在模块化，可维护性，可再现性，可用性和效率之间找到合理的折衷方案。

25 Dlib

lib是一个古代的C ++工具包，其中包含机器学习算法和工具，以便运用C ++创建复杂的软件来处理实践成绩。它被广泛用于机器人，嵌入式设备，移动电话和大型高功能计算环境等范畴。它是收费的，这意味着用户可以在任何运用程序中运用它。Dlib的次要功能是：文档–它为每个类和函数提供残缺而准确的文档，提供了许多示例程序。

26 CLUTO

Cluto是一个软件包，用于对低维和高维数据集停止聚类，并分析各种聚类的特征。它非常合适于聚类数据集，出如今许多不同的运用范畴，包括信息检索，客户购买买卖，网络，地理信息系统，迷信和生物学。CLUTO的发行版包括独立程序和一个库，经过这个库，运用程序可以直接访问CLUTO中完成的各种聚类和分析算法。该软件有几个特点，如多类聚类算法--基于分区、聚类与图分区；多种相似性/间隔函数--欧氏间隔、余弦、相关系数、扩展Jaccard……

27 TraMineR

TraMineR代表的是R-package（用于统计计算和图形的收费软件环境，它可以在UNIX平台、Windows和MacOS等多种平台上编译和运转），旨在发掘、描画和可视化形状或事情的序列，更普通的是团圆序列数据。分析社会迷信中的传记纵向、数据，如描画职业或家庭轨迹的数据，是其次要目的。这个平台有很多功能，可以适用于很多其他种类的分类序列数据。

28 ROSETTA

ROSETTA是一个在粗糙集实际框架内分析表格数据的工具包。它是为支持整个数据发掘和知识发现过程而设计的。从最后的数据阅读和预处理，经过计算最小属性集和生成if-then规则或描画性形式，到验证和分析诱导规则或形式。这个工具箱并不是专门针对任何特定的运用范畴，而是作为一个基于辨识度建模的通用工具。它提供了高度直观的GUI环境，在这个环境中，数据导航才能得到了强调。

29 Pandas

Pandas 是一个开源的 BSD 答应库，为 Python 编程言语提供高功能、易用的数据结构和数据分析工具。Pandas 是 NUMFocus 资助的项目。这将有助于确保 pandas 作为一个世界级的开源项目的成功开发，并使其有能够对项目停止捐赠。获取 pandas 的最佳方式是经过 conda 安装，Python 2.7、Python 3.4 和 Python 3.5 的 osx-64、linux-64、linux-32、win-64、win-32 的 Builds 都可用。

30 Fityk

Fityk是一个数据处理和非线性曲线拟合的程序。它次要用于分析粉末衍射、色谱、光致发光和光电光谱、红外和拉曼光谱等实验技术数据的迷信家，也用于拟合峰-钟形函数（高斯、洛伦兹、Voigt、Pearson VII、二叉高斯。EMG、Doniach-Sunjic等），但它适用于任何曲线与二维（x，y）数据的拟合。

31 KEEL

KEEL(Knowledge Extraction based on Evolutionary Learning)是一个开源(GPLv3)的Java软件工具，可用于大量不同的知识数据发现义务。KEEL提供了一个简单的基于数据流的GUI，用于设计不同数据集和计算智能算法（特别关注退化算法）的实验，以评价算法的行为。它包含了各种经典的知识提取算法、预处理技术（训练集选择、特征选择、团圆化、缺失值的推算方法等）、基于计算智能的学习算法、混合模型、对比实验的统计方法等。

32 ADaMSoft

ADaMSoft是一个收费开源的数据管理、数据和网络发掘、统计分析系统。ADaMSoft提供的程序有：主成分分析、文本发掘、网络发掘、三路工夫数组分析、模糊因变量线性回归、适用程序、合成表、在ADaMSoft中导入数据表（文件）（创建字典）、图表、神经网络（MLP）、定性变量的关联测量。线性代数、评价函数逼近的结果、数据管理、函数拟合、误差定位和数据推算、决策树、定质变量的统计、记录联络、评价分类模型的结果、聚类分析（k-means法）、对应分析、等……

33 Sentic API

Sentic API提供了SenticNet 4的语义和感性，如与概念相关的指代和外延信息，SenticNet 4是一个常识性知识的语义网络，它包含了5万个单词和多词表达的节点，以及节点之间关系的数千个衔接。Sentic API有40种不同的言语，用户可以有选择地在线访问最新版本的知识库。

34 ML-Flex

ML-Flex运用机器学习算法从独立变量中导出模型，目的是预测因变量（类变量）的值。例如，机器学习算法早已运用于Ronald Fisher爵士于1936年引入的Iris数据集，该数据集包含四个独立变量（萼片长度、萼片宽度、花瓣长度、花瓣宽度）和一个因变量（Iris花的种类=setosa、versicolor或virginica）。从四个独立变量中推导出预测模型，机器学习算法通常可以以近乎完美的精度区分。

35 Databionic ESOM

Databionics ESOM工具提供了许多运用新兴自组织地图（ESOM）的数据发掘义务。运用数据仿生学原理对高维数据停止可视化、聚类和分类，可以交互式或自动停止。它的功能包括ESOM训练、U-Matrix可视化、探求性数据分析和聚类、ESOM分类以及U-Maps的创建。Databionic ESOM Tools是一套程序，用于执行数据发掘义务，如运用新兴自组织地图（ESOM）停止聚类、可视化和分类。其特点包括运用不同的初始化方法、训练算法、间隔函数、参数冷却策略、ESOM网格拓扑结构和邻域核来训练ESOM。

36 MALLET

MALLET被称为Machine Learning for LanguagE Toolkit，是一个基于Java的软件包，用于自然言语统计处理、文档分类、聚类、主题建模、信息提取和其他机器学习运用于文本。它提供了复杂的文档分类工具--用于将文本转换为 "特征 "的高效例程、多种算法（包括奈夫贝叶斯、最大熵和决策树），以及运用几种常用目的评价分类器功能的代码。它还提供了用于从文本中提取命名实体等运用的序列标记工具。

37 streamDM

streamDM是一款运用Spark Streaming发掘大数据流的开源软件，由华为诺亚方舟实验室开发。本软件采用Apache Software License v2.0授权。如今，大数据流学习更具应战性，由于数据在流的生命周期内能够不会保持相反的分布。学习算法需求非常高效，由于每一个流来的例子都可以处理一次，或者这些例子需求用很小的内存占用来总结。

38 ADaM

ADaM用于将数据发掘技术运用于遥感数据和其他迷信数据。发掘和图像处理工具包由可互操作的组件组成，这些组件可以经过各种方式衔接在一同，运用于不同的成绩范畴。ADaM有超过100个组件，可以停止配置，以创建定制的发掘过程。预处理和分析工具协助用户将数据发掘运用于其详细成绩。

39 MiningMart

MiningMart可以协助延长这个工夫。MiningMart项目旨在为决策者提供新的技术，使他们可以直接访问存储在数据库、数据仓库和知识库中的信息。其次要目的是经过提供以下目的来支持用户做出智能选择。直接进入数据库的预处理操作员；运用机器学习停止预处理；详细记录成功的案例；高质量的发现结果；可扩展到非常大的数据库和自动选择或改变表示的技术。

40 Modular toolkit for Data Processing

模块化数据处理工具包（MDP）是一个广泛运用的数据处理算法库，可以按照流水线类比停止组合，构建更复杂的数据处理软件。从用户的角度来看，MDP由监督和非监督学习算法的集合，以及其他数据处理单元（节点）组成，这些单元可以组合成数据处理序列（流）和更复杂的前馈网络架构。给定一组输入数据，MDP担任延续训练或执行网络中的一切节点。

41 Jubatus

Jubatus支持的基本义务包括分类、回归、聚类、最近邻、离群检测和引荐。Jubatus是第一个在大数据数据流上停止在线分布式机器学习的开源平台。Jubatus采用松懈的模型共享架构，经过定义三个基本操作，完成机器学习模型的高效训练和共享。更新、混合和分析，与Hadoop中的Map和Reduce操作方式相似。此外，Jubatus还支持可扩展的机器学习处理。它可以运用商品硬件集群每秒处理100000个或更多数据。

42 LIBSVM

LIBSVM是一个支持向量机（SVM）的库。LIBSVM提供的工具有：多核LIBLINEAR、分布式LIBLINEAR、增量学习和减量学习的LIBLINEAR、单对单多类分类的LIBLINEAR、大规模rankSVM、超过2^32个实例/特征的LIBLINEAR（实验）、数据无法放入内存时的大型线性分类、数据实例的权重。

43 Arcadia Data Instant

Arcadia Data Instan运用智能加速技术，经过灵敏的拖放式访问完成超快的分析和BI。Arcadia Data Instant提供了一个集群内执行引擎，可以在Apache Hadoop和其他古代数据平台上完成有数据移动的扩展功能。Arcadia Data Instant支持Apache Kafka上的可视化。经过这一点，用户有一个很好的平台来疾速下载一个工具包，并末尾探求Kafka主题的可视化。Arcadia Data Instant提供的次要功能包括衔接、发现、建模、可视化、交互、管理、扩展、优化、安全、共享和发布以及高级分析。

文章转载自微信公众号机器人AI资讯，版权归原作者及刊载媒体一切。如有侵权，请联络删除。

张宇 · 2020-7-3 07:05:15

呵呵，低调，低调！

zheng201010 · 2020-7-4 07:23:48

这么强,支持楼主，佩服

☆笑对人生☆ · 2020-7-5 13:26:17

我了个去，顶了

		自动登录	找回密码
密码			立即注册

收藏 | 43个顶级收费数据发掘软件

本帖子中包含更多资源

大神点评3

最近发表

公社版块

关注我们