KNN算法不只可以用于分类,还可以用于回归。经过找出一个样本的K个最近邻居,将这些邻居的属性的平均值赋给该样本,就可以得到该样本的属性。更有用的方法是将不同间隔的邻居对该样本产生的影响给予不同的权值,如权值与间隔成反比。 4神经网络 4.1人工神经网络
人工神经网络是模拟生理神经网络的结构和功能而设计的一种信息处理系统。它从信息处理角度对人脑神经元网络停止笼统,建立某种简单模型,按不同的衔接方式组成不同的网络。大量的人工神经元以一定的规则衔接成神经网络,神经元之间的衔接及各衔接权值的分布用来表示特定的信息。神经网络分布式存储信息,具有很高的容错性。每个神经元都可以独立的运算和处理接收到的信息并输入结果,网络具有并行运算才能,实时性非常强。神经网络对信息的处理具有自组织、自学习的特点,便于联想、综合和推行。 4.2深度学习
深度学习源于人工神经网络的研讨,其动机在于建立、模拟人脑停止分析学习的神经网络,它模拟人脑的机制来解释数据。深度学习模型结构是含多隐层的多层感知器,经过组合低层特征构成愈加笼统的高层表示属性类别或特征,以发现数据的分布式特征表示。
深度学习的概念由Hinton等人于2006年提出。基于深度置信网络(DBN)提出非监督贪心逐层训练算法,为处理深层结构相关的优化难题带来希望,随后提出多层自动编码器深层结构。此外Lecun等人提出的卷积神经网络是第一个真正多层结构学习算法,它应用空间相对关系减少参数数目以提高训练功能。
深度学习触及相当广泛的机器学习技术和结构,根据这些结构和技术运用的方式,可以将其分成如下三类:
a) 生成性深度结构。该结构描画数据的高阶相关特性,或观测数据和相应类别的结合概率分布。
b) 区分性深度结构。目的是提供对形式分类的区分功才能,通常描画数据的后验分布。
c) 混合型结构。它的目的是区分性的, 但通常应用了生成型结构的输入会更易优化。 5 支持向量机
支持向量机(Support Vector Machine,SVM) 算法是经典的机器学习算法之一,无论在实际分析还是实践运用中都已获得很好的成果。SVM算法由Vapnik和Chervonenkis共同提出,其实际基础是Vapnik提出的“结构风险最小化"原理。SVM算法泛化才能很强,在处理很多复杂成绩时有很好的表现。例如,为满足美国邮政服务局应用手写邮政编码停止自动分类邮件的需求,Boser和Guyon等人用SVM对手写体阿拉伯数字停止了辨认。Osuna E和Freund R提出了基于SVM的面部辨认方法。Joachims等运用SVM对路透社旧事故事数据集停止了文本分类等等。除了数据分类方面运用,SVM逐渐被推行到回归分析、多种背景的形式辨认、数据发掘、函数逼近拟合、医学诊断等众多范畴。如今,SVM已成为机器学习的次要研讨方向之一,它所代表的统计学习实际也必将带来机器学习范畴一场深入变革。
SVM的思想源于线性学习器,即Rosenblatt感知机。感知机可以将线性可分的两种不同类型的样例自动划分为两类。假如这两类样例不是线性可分的,则可以运用核函数方法,将实验对象的属性表达在高维特征空间上,并由最优化实际的学习算法停止训练,完成由统计学习实际推导得出的学习偏置,从而达到分类的效果,这就是SVM的基本思绪。 6 集成学习 6.1随机森林
随机森林是应用多棵树对样本停止训练并预测的一种分类器。简单来说随机森林就是由多棵CART(Classification And Regression Tree)构成的。对于每棵树,它们运用的训练集是从总的训练集中有放回采样出来的,这意味着总的训练集中的有些样本能够多次出如今一棵树的训练集中,也能够从未出如今一棵树的训练集中。在训练每棵树的节点时,运用的特征是从一切特征中按照一定比例随机地无放回的抽取的。
社区发现成绩目前并没有一个明白的定义,根据普通算法流程,大致可以描画为这样一个成绩:将一个网络分割成若干个由严密相连节点构成的社区,而分属不同社区的节点间的联络则相对松懈。社区发现算法往往面临着两大难点,其一是网络中社区的个数、大小都是不确定的,社区发现往往是一种无监督的聚类算法,算法的终止依赖于数学上的收敛;其二无论是社交网络还是电信网络,网络规模和复杂度较高,一个用户又往往分属多个社区,构成堆叠型社区(Overlapping Community),更增添了社区发现的难度。目前社区发现算法存在许多流派,每类算法又会衍生出许多改进算法,其计算复杂度和运用场景也不尽相反。
参考文献
1. BRINS, PAGE L 1998. The anatomy of a large-scale hypertextual Web search engine [C]//; City. 107-117.
2. BURGESC J C 1998. A Tutorial on Support Vector Machines for Pattern Recognition. DataMining and Knowledge Discovery [J], 2: 121.
3. DANZ 2008. Data Mining Applications in the Banking Industry in China (1998-2007)[C] //, IEEE; City. 240-243.
4. FAYYADU, PIATETSKYSHAPIRO G, SMYTH P 1996. From data mining to knowledge discovery indatabases. Ai Magazine [J], 17: 37-54.
5. HANJ, KAMBER M 2000. Data Mining: Concepts and Techniques [M]. Morgan Kaufmann.
6. HORMOZIA M, GILES S 2004. Data mining: A competitive weapon for banking and retailindustries. Information Systems Management [J], 21: 62-71.
7. LECUNY, BENGIO Y, HINTON G 2015. Deep learning. Nature [J], 521: 436-444.
8. MIKUTR, REISCHL M 2011. Data mining tools. Wiley Interdisciplinary Reviews: DataMining and Knowledge Discovery [J], 29: 102-118.
9. PEDREGOSAF, VAROQUAUX G, GRAMFORT A, et al. 2012. Scikit-learn: Machine Learning inPython. Journal of Machine Learning Research [J], 12: 2825-2830.
10. SCHMIDHUBERJ 2015. Deep Learning in neural networks: An overview. Neural Networks [J], 61:85-117.
11. TANP, STEINBACH M, KUMAR V 2005. Introduction to data mining [M]. Addison Wesley;Boston, MA, USA.
12. VAPNIKV N 1998. Statistical learning theory [M]. Wiley-Interscience; New York.
13. WEISSG M 2004. Mining with rarity: a unifying framework. ACM SIGKDD ExplorationsNewsletter [J], 6: 7-19.
14. WUX D, KUMAR V, QUINLAN J R, et al. 2008. Top 10 algorithms in data mining.Knowledge and Information Systems [J], 14: 1-37.