找回密码
 立即注册
搜索

数据挖掘专栏|初识数据挖掘

AIRX全新技术专栏 --【数据挖掘】

通常,采矿是指从地球上提取一些有价值的材料,例如煤炭开采,钻石开采等。从计算机科学的角度来看,“数据挖掘”是从大量数据或数据仓库中提取有用信息的过程。

在煤炭或钻石开采的情况下,提取过程的结果是煤炭或钻石,但是在数据开采的情况下,结果不是数据,而是在提取过程结束时获得的一种模式和知识。数据挖掘也称为知识发现或知识提取。

数据挖掘主要用于存储和处理大量数据的地方。例如,银行系统使用数据挖掘来存储每天处理的大量数据。

在数据挖掘中,根据不同类别将数据的隐藏模式分析为一条有用的信息。该信息被组装在诸如数据仓库之类的区域中以进行分析,并实施数据挖掘算法。这些数据有助于做出有效的决策,从而降低成本并增加收入。
数据库系统技术的发展




KDP

数据挖掘也称为从数据中发现知识,即KDD。知识发现的过程如下图所示:



    数据清理:在此阶段,将清除所有数据噪声和不一致的数据。数据集成:在此阶段,将来自不同来源的多个数据进行组合。数据选择:在此阶段,将分析紧密联系的数据并从数据库中检索它们。数据转换:在此阶段,数据将通过执行汇总或聚合操作进行转换并变得强大。数据挖掘:这是最重要的过程,其中应用了智能方法来提取数据模式。模式评估:在此阶段,将识别代表知识并基于兴趣的有趣模式。
数据种类

数据挖掘是一种可以应用于任何类型的数据中的技术,但是数据对于目标应用程序应该是有意义的。以下是用于数据的挖掘应用程序的类型:

1)数据库数据

数据库系统也称为数据库管理系统(DBMS),它是相互关联的数据(称为数据库)的集合,也是一组用于管理和访问数据的软件程序。用于定义数据库结构和数据存储,用于指定和管理并发,共享或分布式数据访问;为了确保即使系统崩溃或试图进行未经授权的访问,所存储信息的一致性和安全性,软件程序也提供了许多机制。关系数据库是表的集合,每个表应具有唯一的名称,每个表具有一组属性,并且它可以存储大量记录或行。表中的每个记录都由唯一键标识。还为关系数据库构造了诸如实体关系(ER)数据模型之类的数据模型。

2)数据仓库

例如,假设AllElectronic是一家在印度设有分支机构的公司,并且每个分支机构都有自己的数据库。公司负责人要求对公司第三季度每个分支机构每件产品的销售额进行分析。由于数据存在于多个数据库中,因此这变得非常困难。如果AllElectronic将拥有一个数据仓库,那么此任务将非常容易。数据仓库是一个从多个来源收集信息,然后将其存储在统一模式中并位于单个站点的地方。数据仓库由多个步骤构成,例如数据清理,数据集成,数据转换,数据加载和数据刷新。数据仓库中的数据分为许多部分。摘要形式提供了有关过去6到12个月之类的历史数据的信息。数据仓库由称为数据多维数据集的多维数据结构建模。数据多维数据集在模式中具有属性或属性集,并且每个单元格都包含某些聚合的值,例如总和或计数。数据多维数据集具有数据的多维视图,并且可以快速访问汇总数据。



3)交易数据

交易数据库记录被捕获为交易,例如,客户购买,航班预订,用户单击网页等。交易具有唯一的交易标识号和组成交易的项目列表。事务数据库可能包含其他表,这些表具有与事务相关的记录。

4)其他种类的数据

有许多数据具有多种形式和结构以及不同的语义。这种数据可以在许多应用程序中看到。以下是其他类型的数据:与时间相关的数据或序列数据,数据流,空间数据,工程设计数据,超文本和多媒体数据,图形和联网数据以及网络。
用于数据挖掘的技术

1)统计

在统计中,研究了数据的收集,分析,解释和表示。数据挖掘与统计数据有着永久的联系。统计模型是一组数学函数,这些函数根据随机变量及其关联的概率分布来描述对象的行为。统计模型用于模型数据和数据类。在数据挖掘中,统计模型用于诸如数据表征和分类之类的任务。在统计模型之上,可以构建数据挖掘任务。

2)机器学习

机器学习用于研究计算机如何基于数据进行学习。机器学习的主要研究领域是计算机程序,用于学习,识别复杂模式并自动基于数据做出智能决策。机器学习是发展最快的技术。

3)数据库系统和数据仓库

数据库系统主要集中于为组织和最终用户创建,维护和使用数据库。数据库系统在数据模型,查询语言,查询处理,优化方法,数据存储,索引和访问方法方面具有很高的原则。

4)信息检索

信息检索是搜索文档或文档中信息的过程。文档可以采用文本或多媒体形式,也可以驻留在Web上。传统信息检索与数据库系统之间的主要区别是:
    搜索的数据是非结构化的。关键字用于形成不具有复杂结构的查询。

用于信息检索的方法是概率模型。
数据挖掘的应用

1)市场营销

数据挖掘技术对于了解买方的行为非常有用,例如,客户购买产品的频率,所有购买的总金额以及最后一次购买的时间等。使用数据挖掘,可以轻松了解买方的需求,可以根据买方的要求生产产品和服务。数据库营销是数据挖掘的一种非常流行的应用。

2)保健

数据挖掘在医疗保健系统中已大大改善。使用数据挖掘,可以预测患者总数,这将有助于确保每个患者都可以在正确的时间和地点得到适当的护理。

3)教育

在教育领域,完成了教育数据挖掘。它用于解决学生的挑战,也有助于通过创建学生模型来了解学生如何学习。教育数据挖掘的主要目标是预测学生未来的学习行为,这将有助于学生获得成功。学生的成绩也可以通过数据挖掘来预测。

4)零售业

零售行业拥有大量有关销售和客户购物历史的数据。零售行业中的数据挖掘有助于改善客户的行为,客户购买的方式,从而改善客户服务。

5)银行业务

数据挖掘在银行业中非常重要。银行业受益于数字技术。数据挖掘在金融,信用分析,欺诈性交易,现金管理以及预测付款方面广泛使用。
数据挖掘问题

1)采矿方法论

研究人员和科学家开发了许多新的数据挖掘方法。这种方法论包括研究新知识,整合其他学科的方法,在多维空间中挖掘以及数据对象之间的语义联系。挖掘方法有很多问题,例如数据不确定性,噪声和不完整性等。以下是挖掘方法的各个方面:

i)挖掘各种新知识

数据挖掘涵盖了非常广泛的数据分析和知识发现任务,从数据表征和区分到关联和相关性分析,分类,回归,聚类,离群值分析,序列分析以及趋势和演化分析。此任务以许多不同的方式使用同一数据库,并且需要开发许多数据挖掘技术。

ii)多维空间中的知识挖掘

多维空间中的数据用于在大型数据集中搜索知识。这样,可以使用高度抽象的维度组合来搜索有趣的模式。这种挖掘称为多维数据挖掘。

iii)数据挖掘-跨学科的工作

通过集成来自多个学科的新方法,可以增强数据挖掘的功能。

iv)增强网络环境中的发现能力

永久存储为链接或互连环境中的某些数据对象,可以位于Web,数据库关系,文件或文档中。在数据挖掘中,多个数据对象中的语义链接是主要优势。从一组对象中获得的知识可用于增强另一组对象的知识。

v)处理不确定性,噪声或数据不完整

通常,数据包含噪音,错误,异常或不完整。错误和噪声会导致数据挖掘过程中的混乱,从而导致错误的模式。数据清理,数据预处理,离群值检测和删除等是需要与数据挖掘过程集成的技术示例。

vi)模式评估和模式指导或约束指导的挖掘

众所周知,数据挖掘过程生成的所有模式都不是很有趣。使模式变得有趣总是因用户而异。因此,需要基于主观度量的有趣技术来发现模式。这些估计将生成基于用户期望的模式。

2)用户互动

在数据挖掘过程中,用户扮演着非常重要的角色。

i)互动采矿

数据挖掘的过程应高度互动。为了构建灵活的用户界面,探索采矿环境使系统变得易于使用。用户将在1 日检查组数据,探索数据和它的特性,估计其潜力挖掘的结果。有吸引力的挖掘使用户可以动态更改搜索方法。

结合背景知识

在知识发现过程中,应了解背景知识,约束,规则和有关领域的信息。这些知识可用于模式评估,还可以指导有趣的模式。

ii)临时数据挖掘和数据挖掘查询语言

使用查询语言进行灵活的搜索已经变得非常重要,因为它们允许用户进行临时查询。为了定义临时数据挖掘任务,高级数据挖掘查询使界面易于使用。

iii)数据挖掘结果的呈现和可视化

数据挖掘系统如何呈现数据挖掘的结果和灵活性,从而使人类可以轻松,直接地理解知识?如果数据挖掘的过程是交互式的,那么这是一个非常困难的过程。它需要表达性的知识表示,友好的界面以及可视化技术。

3)效率和可伸缩性

效率和可伸缩性用于比较数据挖掘算法。由于数据量不断增加。以下是至关重要的因素:

i)数据挖掘算法的效率和可扩展性

数据挖掘中的算法应高效且可扩展,以从大量数据中提取信息。算法的时间必须是可预测的且较短,并且必须被应用程序接受。为了开发新的数据挖掘算法,效率,可伸缩性,性能和优化必须是关键特性。

ii)并行,分布式和增量挖掘算法

庞大的数据集,数据分布,计算复杂性是促使并行和分布式数据挖掘算法发展的因素。该算法将数据分为几部分。然后,通过搜索模式并行处理每件作品。这些并行处理部分相互交互。然后根据它们的分区合并这些模式。它在数据挖掘过程中产生了很高的成本。

4)数据库类型的多样性

数据库的巨大多样性在数据挖掘中带来了许多挑战。它们如下:

i)处理复杂类型的数据

不同类型的应用程序会从结构化数据生成大量新数据类型,例如关系和数据仓库,半结构化数据到非结构化数据,稳定数据到动态数据,简单数据到临时数据等。这是不可能的一个数据挖掘系统可以挖掘各种数据。

ii)挖掘动态,联网和全局数据存储库

许多数据源通过Internet和其他类型的网络连接。不同来源发现的知识是结构化,半结构化或非结构化的,这对数据挖掘来说具有挑战性。在数据挖掘领域,Web挖掘,多源数据挖掘和信息网络挖掘已成为挑战。

5)数据挖掘与社会

数据挖掘对社会的影响如何?数据挖掘如何保护个人隐私?这些问题引起以下问题:

i)数据挖掘的社会影响

随着数据挖掘已成为日常生活的一部分,因此研究数据挖掘对社会的影响就变得至关重要。数据使用不当,数据隐私和保护权是非常重要的领域。

ii)隐私保护数据挖掘

由于数据挖掘有助于科学发现,业务管理,经济复苏和安全保护,因此泄露个人信息的风险变得非常高。隐私保护的研究仍在进行中。

iii)隐形数据挖掘:

社会上不可能学习数据挖掘技术。更多的系统需要数据挖掘功能,这样人们就可以通过单击鼠标来使用数据挖掘结果,而无需任何数据挖掘算法的知识。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评3

黎鞅 2023-5-29 15:30:22 显示全部楼层
给你我的小心心
回复

使用道具 举报

坤儿holic 2023-5-31 13:44:45 显示全部楼层
不错 支持一个了
回复

使用道具 举报

区区旗看 2023-5-31 21:13:24 来自手机 显示全部楼层
专业抢沙发的!哈哈
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies