找回密码
 立即注册
搜索

一文入门机器学习

目师 2024-4-30 09:12:45 显示全部楼层 阅读模式
机器学习是一种人工智能(AI),它为计算机提供了无需明确编程即可学习的能力。机器学习侧重于开发计算机程序,这些程序在接触新数据时可能会发生变化。
机器学习的过程类似于数据挖掘的过程。这两个系统都搜索数据以寻找模式。然而,机器学习不是像数据挖掘应用程序那样提取数据供人类理解,而是使用这些数据来检测数据中的模式并相应地调整程序操作。
机器学习算法通常分为:监督或无监督、半监督和强化。
监督算法:

监督算法应用于过去学到的知识,使用标记示例预测未来事件的新数据。从对已知训练数据集的分析开始,学习算法生成一个推断函数来预测输出值。经过充分的训练后,该系统能够为任何新输入提供目标。学习算法还可以将其输出与正确的预期输出进行比较,并发现错误,以便相应地修改模型。





无监督算法:

无监督算法可以从数据集中得出推论。当用于训练的信息既未分类也未标记时,将使用它。无监督学习研究系统如何从未标记的数据中推断出函数以描述隐藏结构。该系统无法找出正确的输出,但它可以探索数据,并可以从数据集中得出推论,以描述未标记数据中的隐藏结构。
半监督机器学习:

介于监督学习和无监督学习之间,因为它们同时使用标记和未标记的数据进行训练——通常是少量标记数据和大量未标记数据。使用这种方法的系统能够大大提高学习准确性。通常,当获取的标记数据需要熟练且相关的资源来训练/学习时,会选择半监督学习。否则,获取未标记的数据通常不需要额外的资源。
强化算法:

是一种通过产生动作并发现错误或奖励来与环境互动的学习方法。试错搜索和延迟奖励是强化学习最相关的特征。这种方法允许机器和软件代理在特定上下文中自动确定理想行为,以最大限度地提高其性能。座席需要简单的奖励反馈来了解哪种行动最好;这被称为强化信号。
重要的机器学习算法

监督学习
1. 决策树:
决策树是一种决策支持工具,它使用树状图形或决策模型及其可能的后果,包括机会事件结果、资源成本和效用。看一下这张图片,了解它的样子。





从业务决策的角度来看,决策树是人们必须提出的是/否问题的最小数量,以评估做出正确决策的可能性,大多数时候。作为一种方法,它允许您以结构化和系统化的方式处理问题,以得出合乎逻辑的结论。
2. 朴素贝叶斯分类:
朴素贝叶斯分类器是一系列简单的概率分类器,它基于应用贝叶斯定理,并在特征之间具有强(朴素)独立性假设。特色图像是方程 P(c|x) 是后验概率,P(x|c) 是似然,P(c) 是类先验概率,P(x) 是预测先验概率。





朴素贝叶斯分类
一些例子:
1 .将电子邮件标记为垃圾邮件或非垃圾邮件
2. 对有关技术、政治或体育的新闻文章进行分类
3.检查一段表达积极情绪或消极情绪的文字?4.用于人脸识别软件。

3. 普通最小二乘回归
线性回归的普通最小二乘法 (OLS)






4. 逻辑回归
逻辑回归是一种强大的统计方法,用于使用一个或多个解释变量对二项式结果进行建模。它通过使用逻辑函数(即累积逻辑分布)估计概率来衡量分类因变量与一个或多个自变量之间的关系。



通常,回归可用于实际应用,例如:

  • 信用评分
  • 衡量营销活动的成功率
  • 预测某个产品的收入
  • 某一天会发生地震吗?
5. 支持向量机
SVM是二元分类算法。给定 N 维位置的一组 2 种类型的点,SVM 生成一个 (N — 1) 维超通道,将这些点分成 2 组。假设您在论文中有一些 2 种类型的点是线性可分离的。SVM 将找到一条直线,将这些点分为 2 种类型,并尽可能远离所有这些点。





在规模方面,使用支持向量机(经过适当修改的实现)解决的一些最大问题是展示广告、人体拼接位点识别、基于图像的性别检测、大规模图像分类......
6. 集成方法:
集成方法是一种学习算法,它构建一组分类器,然后通过对其预测进行加权投票来对新数据点进行分类。最初的集成方法是贝叶斯平均法,但最近的算法包括纠错输出编码、装袋和提升。











无监督学习
7. 聚类算法:
聚类是将一组对象分组的任务,使同一组(集群)中的对象彼此之间比其他组中的对象更相似。





每种聚类算法都是不同的,以下是其中的几个:

  • 基于质心的算法
  • 基于连通性的算法
  • 基于密度的算法
  • 概率
  • 降维
  • 神经网络/深度学习
8. 主成分分析:
PCA 是一种统计程序,它使用正交变换将一组可能相关变量的观测值转换为一组线性不相关变量的值,称为主成分。





PCA 的一些应用包括压缩、简化数据以便于学习、可视化。请注意,在选择是否继续进行 PCA 时,领域知识非常重要。它不适用于数据嘈杂的情况(PCA 的所有组件都具有相当高的方差)。
9. 奇异值分解:
在线性代数中,SVD 是实复矩阵的因式分解。对于给定的 m * n 矩阵 M,存在一种分解,使得 M = UΣV,其中 u 和 V 是酉矩阵,Σ 是对角矩阵。



PCA实际上是SVD的简单应用。在计算机视觉中,第一类人脸识别算法使用PCA和SVD将人脸表示为“特征面”的线性组合,进行降维,然后通过简单的方法将人脸与身份进行匹配;尽管现代方法要复杂得多,但许多方法仍然依赖于类似的技术。
10. 独立成分分析:
ICA 是一种统计技术,用于揭示随机变量、测量或信号集背后的隐藏因素。ICA 为观察到的多变量数据定义了一个生成模型,该模型通常以大型样本数据库的形式给出。在模型中,假设数据变量是一些未知潜在变量的线性混合,混合系统也是未知的。潜在变量被假定为非高斯变量且相互独立,它们被称为观测数据的独立分量。





ICA与PCA有关,但它是一种更强大的技术,能够在这些经典方法完全失败时找到来源的潜在因素。其应用包括数字图像、文件数据库、经济指标和心理测量。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

大神点评2

加油!不要理那些键盘侠!
回复

使用道具 举报

lingling8880 2024-5-3 07:01:22 显示全部楼层
楼猪V5啊
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies