找回密码
 立即注册
搜索

数据挖掘中的聚类是什么意思

数据挖掘和聚类密切相关。它们都专注于特定数据集的模式识别。
主要是机器学习、模式识别和统计的共同努力。它们有助于发现数据中的模式。聚类是数据挖掘的各种方法之一。





数据分析


什么是数据挖掘中的聚类?

通常,数据挖掘最终会发现模式。如果您特别谈论聚类,它是一种无监督的数据挖掘方法,可将数据分成几组。换句话说,聚类是将数据统计分布到子类中。每个子类都展示了一组相似的对象。这是一种无监督算法。
让我们考虑用这个例子来阐明它的含义。当您在搜索引擎中键入一个短语时,它会立即进行监控。每当您再次浏览它时,它都会排列一系列由您之前的搜索所激发的广告。它的机器人需要几分钟来扫描您探索的内容。同样,许多其他用户也会浏览过类似或相关的信息。但是,他们的措辞可能会有所不同。它的机器人在算法中进行了数十亿次搜索,以列出最易搜索的短语。这就是数据挖掘。





数据处理


无监督算法使用多个变量描述数据作为输入。与监督算法不同,它没有变量来预测。
它的各种方法是什么?

数据可以有多种类型,如调查、报告、表格、图像等。其各种方法处理 数据挖掘中聚类分析中的数据类型。因此,结果出现了决定性的作用。

  • 划分方法: 假设一个数据集包含 n 个 对象,而它们划分为组 k。 这意味着每个 k 组将有 n 个 对象,前提是:


  • 每个集群应该至少有一个对象。
  • 一个对象应该只属于一个集群。





大数据
这种聚类在数据挖掘中最初是有效的。紧随其后的是迭代重定位技术以及进行精细聚类。

  • 分层方法: 它是数据对象的分层分解。它的凝聚方法首先将每个对象聚集在一个组中。随后,根据自下而上的方法,合并密切相关的对象,直到留下一个对象。
另一方面,矿工可以采用自上而下的方法,即。分裂的方法。它首先将所有对象聚集到一个组中。然后,它被分成更小的集群。

  • 基于密度的方法: 顾名思义,只要相邻簇的密度超过其阈值,该方法就会扩大簇的半径。
  • 基于模型的方法: 它基于假设建模。建立一个假设模型以找到数据的最佳拟合。密度函数保持在核心。然后,出现数据的空间分布。在考虑异常值或噪声的同时,标准统计数据确定聚类。
  • 基于约束的方法: 这种方法反映了将用户或面向应用的约束(如用户的期望)合并到集群中。
它的应用有哪些?


  • 市场 研究: 市场研究需要深入洞察比较和预测分析。这种聚类广泛地有助于识别隐藏模式、分析和战略形成。
  • 互联网算法: 万维网使用它来理解搜索以过滤准确的结果或信息。
  • 模式识别: 许多银行使用异常值检测应用程序来筛选信用卡欺诈模式。
  • 图像处理: 比方说,政府想要了解有关特定地点征地的确切信息。聚类有助于根据图像中出现的房屋类型、价值和地理位置确定房屋类型。
  • 数据挖掘: 它有助于对营销循环进行分类、客户分析、派生植物和动物分类法、基因分类和对任何目标领域的洞察。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

大神点评3

KY丶XX 2022-7-17 15:53:29 显示全部楼层
想知道楼主的感受,怎么样?
回复

使用道具 举报

阿楠阿 2022-7-19 20:25:56 来自手机 显示全部楼层
不聊了,又该去搬砖了。。。
回复

使用道具 举报

伪善の上帝 2022-7-20 09:43:06 显示全部楼层
边撸边过
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies