智客公社

标题: 周志华的《机器学习》 [打印本页]

作者: 8090ANDY    时间: 2024-8-9 10:40
标题: 周志华的《机器学习》


周志华的《机器学习》,号称人工智能领域中文版开山之作。
这是一本面向中文读者的机器学习教科书,适合正在学习机器学习的学生,以及对人工智能机器学习感兴趣的人士。为了让读者通过本书对机器学习有所了解,作者使用了通俗易懂的切西瓜的方式,生动有趣的讲解了机器学习基础知识的各方面,被业内戏称“西瓜书”。
一、内容概述

全书共16章,大致分为三个部分:
二、目录

书中除第1章外,每章都给出了十道习题。有的习题是帮助读者巩固本章学习,有的是为了引导读者扩展相关知识。带星号的习题则有相当难度,有些并无现成答案,谨供富有进取心的读者启发思考。
本书可作为高等院校计算机、自动化及相关专业的本科生或研究生教材,也可供对机器学习感兴趣的研究人员和工程技术人员阅读参考。



三、绪论

1.基本术语
(分类和回归是前者的代表,而聚类是后者的代表)
2.假设空间
假设获得了一个训练数据集。



我们的学习目标是“好瓜”,表中的三个因素就是我们判定一个好瓜的标准,然后就可以用布尔表达式来判断训练。










3.归纳偏好
归纳偏好就是归纳偏好是算法在面临多种可能的假设或模型时,如何根据先验知识或假设来选择最符合当前任务或数据特性的模型的一种机制。这种偏好通常嵌入在算法的设计中,并影响算法的学习过程和最终模型的性能。
下图中的每个训练样本是图中的一个点(x,y),要学得一个与训练集一致的模型,相当于找到一个穿过所有训练样本的曲线。





四、模型评估与选择

1.经验误差与过拟合
过拟合:学习器把训练样本学的太好了,把训练样本的一些特质当成了所有样本都有的普遍特质,导致泛化性能下降。
欠拟合:对训练样本的一般特质尚未学好。




2.评估方法



3.性能度量
对学习器的泛化性能进行评估,不仅需要有限可行的实验估计方法,还需要有衡量模型泛化能力的评价标准,这就是性能度量。
错误率:分类错误的样本数占样本总数的比例。
精度(Accuracy):分类正确的样本数占样本总数的比例。精度是分类任务中最直观的性能度量,但在处理不平衡数据集时可能会失效。
查准率(Precision):在所有被模型预测为正类的样本中,真正为正类的样本所占的比例。它衡量了模型预测为正类的可靠性。
查全率(Recall,也称召回率):在所有实际为正类的样本中,被模型正确预测为正类的样本所占的比例。它衡量了模型找到所有正类样本的能力。
F1分数:查准率和查全率的调和平均,用于在两者之间进行权衡。F1分数越高,说明模型的性能越好。





ROC曲线:ROC全称“受试者工作特征”以真正例率(TPR)为纵轴,假正例率(FPR)为横轴绘制的曲线。ROC曲线越靠近左上角,模型的性能越好。



两者分别定义
AUC(Area Under Curve):ROC曲线下的面积,用于量化模型性能。AUC值越大,模型的性能越好。
PR曲线:以查准率为纵轴,查全率为横轴绘制的曲线。PR曲线更关注于精确性和召回率之间的权衡。
PR-AUC:PR曲线下的面积,用于量化模型在精确性和召回率方面的性能。



4.比较检验
主要涉及的两个步骤:
1.提出假设:
2.收集证据并进行检验:
书籍资料领取方式:
一、厚苔私信发送“1”,即可免费领取
二、关注工重号“编程百事通”




欢迎光临 智客公社 (http://bbs.cnaiplus.com/) Powered by Discuz! X3.4