如今,使用 AutoML 等工具对不同的 ML 算法进行基准测试,这一过程得到了显着简化。同时,过度约束训练过程可能会导致模型在训练集上运行良好,但在实际数据上效果不佳。另一个关键缺点是监督机器学习在识别数据中的意外趋势或发现新现象方面不是很有效。对于这些类型的应用程序,无监督机器学习可以提供更好的结果。
K 均值(K-means)算法将数据分类到 K 聚类中,其中 K 的值由用户预设。在过程开始时,算法随机分配 K 个数据点作为 K 个聚类的质心。接下来,它计算每个数据点与其聚类的质心之间的均值。这会导致将数据诉诸集群。此时,算法重新计算质心并重复均值计算。它重复计算质心和重新排序聚类的过程,直到它到达一个恒定的解(参见图1)。
[attach]772721[/attach]
图 1:K-means 算法将数据集划分为 K 个集群,首先随机选择 K 个数据点作为质心,然后在集群中随机分配剩余的实例。图片来源:GeeksforGeeks,A3
异常检测的标准方法是建立一组正常值,然后对每条数据进行分析,看它是否偏离正常值以及偏离多少。在处理 ML 中使用的那种海量数据集时,这是一个非常耗时的过程。隔离森林(Isolation forest)算法采用相反的方法。它将异常值定义为与数据集中的其他实例既不常见又非常不同。因此,它们更容易与其他实例上的其余数据集隔离开来。
网络安全:网络安全的最大挑战之一是威胁在不断变化。在这种情况下,通过无监督 ML 进行异常检测可能非常有效。一种标准的安全技术是监控数据流。如果通常向其他组件发送命令的 PLC 突然开始接收来自非典型设备或 IP 地址的稳定命令流,这可能表示入侵。但是,如果恶意代码来自受信任的来源(或不良行为者欺骗受信任的来源)怎么办?无监督学习可以通过在接收命令的设备中寻找非典型行为来检测不良行为者。