智客公社

标题: 《计量经济学报》| 洪永淼、汪寿阳:大数据、机器学习与统计学:应战与机遇 [打印本页]

作者: yfcc    时间: 2021-2-7 15:03
标题: 《计量经济学报》| 洪永淼、汪寿阳:大数据、机器学习与统计学:应战与机遇
[attach]516136[/attach]

越南艺术大师 梅忠恕 作品


原文首发微信公众号:计量经济学报

摘要:随着数字经济时代的降临,基于互联网、移动互联网以及人工智能技术的经济活动每时每刻产生了海量大数据,这些海量大数据又反过来驱动各种经济活动。大数据来源不一,方式多样,种类繁杂,既有结构化数据,也有非结构化数据,如文本、图像、音频、视频等,即便是结构化数据,也有新型数据,如函数数据、区间数据与符号数据等。大数据大多拥有宏大的样本容量,也有潜在解释变量维数超过样本容量的高维大数据。大数据的产生以及基于大数据的机器学习的广泛运用,对统计学产生了深入影响。本文从大数据的特点和机器学习的本质出发,讨论了大数据和机器学习对统计建模与统计推断的应战与机遇,包括由抽样推断总体分布性质、充分性准绳、数据归约、变量选择、模型设定、样本外预测、因果分析等重要方面,同时也讨论了机器学习的实际与方法论基础以及统计学和机器学习的交叉交融。

关键词:人工神经网络;大数据;维数灾难;数据迷信; LASSO;机器学习;统计学习;数理统计学;模型多样性;模型不确定性;非参数分析;统计分明性;充分性准绳;因果关系

作者:洪永淼:世界计量经济学会会士、发展中国家迷信院院士,中国迷信院数学与系统迷信研讨院特聘研讨员,研讨方向:计量经济学、工夫序列分析、金融计量学、统计学, E-mail: ymhong@amss.ac.cn。

汪寿阳:发展中国家迷信院院士、国际系统与控制迷信院院士,中国迷信院数学与系统迷信研讨院特聘研讨员,研讨方向:金融系统工程、经济分析与预测, E-mail: sywang@amss.ac.cn。

1. 导言

统计学是一门关于数据分析的方法论迷信,为自然迷信和社会迷信的实证研讨和阅历分析提供严谨的分析方法和工具。随着互联网与移动互联网技术及其运用的疾速发展,大数据(Big data)和用于大数据分析的机器学习(machine learning)正在对统计迷信产生深入的影响。与传统数据相比,大数据体量宏大,来源不一,种类繁多,有结构化、半结构化、非结构化等各种方式,大多数是实时或近乎实时生成和记录的数据。

一种观点以为,大数据是全样本与几乎接近全样本,因此统计学的随机抽样实际,特别是以随机样本推断总体分布性质的统计方法不再适用。同时,也有观点以为,大数据特别是高频乃至实时数据的出现以及机器学习的运用,使得基于数据的系统特征与变量之间相关性的精准预测成为能够,因此在实践运用中,只需求相关性,不需求因果关系。

那么,大数据能否改变了统计迷信的实际基础?比如,随机抽样推断、充分性准绳、数据归约、样本外预测、因果分析等统计方法,能否将会改变,甚至有些统计学的基本原理能否将不再适用?另外,大数据给统计建模与统计推断的实际与运用带来了哪些应战与机遇?作为大数据分析的重要工具,机器学习与统计建模的次要区别是什么?机器学习与统计推断有什么联络与共同点?众所周知,基于大数据的机器学习常常可以提供较为精准的样本外预测,但在大多数状况下,它就像一个"黑箱",很难甚至无法给予直观解释。

那么,统计学能否为机器学习提供有意义的实际解释呢?机器学习与统计学能否可以结合起来?假如可以,这种交叉交融对统计迷信的将来发展将产生什么影响?本文试图回答这些重要成绩,并提供一些探求性的处理思绪。在第二节,我们简要讨论统计建模与统计推断的习气做法,指出传统统计建模与统计推断的基本假设和基本思想。在第三节,我们将讨论大数据特别是经济大数据的次要来源和次要特点。在第四节,我们将讨论机器学习的本质以及几种重要的机器学习方法。第五节将讨论大数据与机器学习对统计建模与统计推断的影响,特别是对统计迷信所带来的应战与机遇,同时也讨论在大数据背景下如何将机器学习和统计学无机结合起来,开拓统计迷信和计量经济学研讨的新范畴与新方向。第六节是结论。

我们得出以下次要结论:

1)大数据没有改变统计学经过随机抽样推断总体分布特征的基本思想。许多基本统计方法,包括充分性准绳、数据归约、因果推断等,依然合适于大数据分析,其中有些统计方法,如充分性准绳与数据归约,其重要性甚至由于大数据的出现而大大加强。当然,这些统计方法在大数据条件下需求创新与发展。

2)大数据提供了很多传统数据所没有的信息,大大拓展了统计学研讨的范畴边界。例如非结构化文本数据(text data)使得构建一些重要社会经济心思变量成为能够,包括测度投资者心情、居民幸福感、经济政策不确定性等,而高频甚至实时数据使得实时预测和高频统计建模与统计推断成为能够。

3)由于样本容量宏大,大数据估计将改变基于统计分明性来选择统计模型重要变量的习气做法。特别地,抽样数据变异性对统计建模与统计推断产生了宏大影响,研讨范式也将从参数估计不确定性转变为模型选择不确定性;这同时也对统计建模与统计推断提出新的应战,包括数据生成过程的同质性与颠簸性以及统计模型独一性等基本假设的适用性成绩。

4)机器学习的兴起得益于大数据的产生以及计算才能的爆炸式发展。机器学习与统计推断有很多共同之处,包括在数据生成过程的随机性假设和由抽样推断总体分布性质等基本思想。与统计建模与统计推断一样,机器学习也存在并且特别注重样本偏向成绩。

5)与统计学的参数建模方法相比,绝大多数机器学习方法不对数据与变量之间的关系给予详细的模型假设或限制,而是根据目的函数经过算法直接学习、探求数据的系统特征和变量之间的统计关系,使目的函数最优化。机器学习的本质是一个数学优化成绩与完成该优化成绩的计算机算法成绩,它比统计学的参数建模更普遍、更灵敏,包括对重要解释变量的选择与测度。

6)与机器学习一样,统计学的非参数分析(nonparametric analysis)也是不用假设任何详细模型方式而可以分歧估计描写数据生成过程的未知函数(如概率密度函数或回归函数)。很多重要的机器学习方法,如决策树、随机森林、$k$最近邻法($k$-NN)、人工神经网络、深度学习等,其实就是统计学的非参数方法。这些非参数方法的统计性质,特别是其对未知函数的分歧性估计的性质,可以从实际上解释与协助了解为什么一些机器学习方法拥有精准的样本外预测才能。但是,机器学习不完全等同于统计学的非参数分析方法,例如,机器学习在处理高维解释变量时具有更大的灵敏性,而非参数分析则存在众所周知的"维数灾难(curse of dimensionality)"成绩。

7)在大数据背景下,机器学习与统计推断的无机结合有望为统计迷信与数据迷信提供一些新的发展方向,特别是在统计学习这一新兴的交叉范畴,包括变量降维、稳健推断、精准预测、因果辨认等重要方面。

2. 实证研讨与统计分析

统计迷信为古代迷信的实证研讨奠定了坚实的方法论基础,提供了重要的方法与工具,其运用包括以非实验观测数据为基础的经济学与其他社会迷信。统计推断的基本思想是假设所研讨的系统是服从某一概率法则的随机过程,理想观测数据是从这个随机过程产生的,而这个随机过程称为数据生成过程(data generating process, DGP)。统计实证分析的次要目的是经过对观测数据停止统计建模,推断出DGP的概率法则或其重要特征,然后运用于各种实践运用中,如解释阅历典型特征理想、检验经济实际与经济假说、预测将来变化趋向、评价公共政策等。详细讨论可参见文献洪永淼(2007)。

在统计建模与统计推断中,普通假设DGP的概率法则可由独一的数学概率模型来描写,模型通常将因变量与一些解释变量或预测变量联络起来。同时,假设该数学模型的函数方式已知,但包含低维的未知参数。这是一种参数建模(parametric modeling)方法,在统计学中运用最为广泛。统计推断的次要目的是用观测数据估计模型的未知参数值,将经济实际或经济假说转化为统计参数假设,然后停止参数假设检验,并对实证结果提供经济解释。在统计实证研讨中,常见做法是基于一个预设的分明性程度(如5\%)判别一个参数估计值或参数假设在统计学上能否分明,特别是运用检验统计量的$P$值来断定参数估计值或参数假设的统计分明性。假如具有统计分明性,则相应的解释变量将视为一个重要决议要素,并留在统计模型中。假如一个具有统计分明性的解释变量没有被包含在统计模型中,则称该变量为遗漏变量,且模型误设。模型误设还有其他缘由,如函数方式错误、忽视结构变化或异质性等。通常会经过样本内诊断检验或拟合优度来判别设定模型能否足以描画观测数据或者描写DGP的概率法则。

在实践运用中,常用的标准统计模型包括经典线性回归模型、Probit或Logit团圆选择模型、生活分析或久期分析中的比例风险模型(Cox (1972))等。作为模型的重要输入,经济观测数据普通指在理想条件下所观测到的数据,这些数据不是在可控实验条件下产生的。非实验性是经济学乃至社会迷信的最分明特征。大多数实践观测数据的样本容量通常不太大。观测数据以及相关的统计模型能够也存在各种缺陷或不尽如意的特征,如随机扰动项的条件异方差与自相关、删失数据、截断数据、变量误差、遗漏观测值、内生性、维数灾难、弱工具变量、不可观测的虚拟理想、部分辨认、甚至数据操纵与数据造假等,充分思索这些数据缺陷或特征有助于改进统计推断。许多年来,统计学和计量经济学的实证研讨不断沿用上述统计建模与统计推断过程。

我们发现,这些做法直接或间接地基于至少六个关键假设:

假设1: 随机性。DGP是一个随机过程。

假设2:模型独一性。DGP的概率法则由独一的数学概率模型来描写。

假设3:模型正确设定。概率模型设定是正确的,即存在独一的未知参数值,使得概率模型与DGP的概率法则相吻合。

假设4:抽样推断总体。运用包含DGP信息的样本数据来推断总体分布特征,特别是DGP的概率法则,这是基本的统计推断方法,也导致概率论成为推断统计学的实际基础。

假设5:代表性样本。描画观测数据的随机样本不存在样本选择偏向,而观测数据的样本容量通常不会太大。

假设6:统计分明性。基于统计推断,尤其是运用统计检验量的$P$值,在预设的分明性程度(如5%)上判别解释变量或预测变量能否重要,并据此提供逻辑解释。

接上去,我们将讨论大数据特别是经济大数据的次要特征和机器学习的本质,以及它们给统计建模与统计推断的实际与运用所带来的重要影响、应战与机遇。作为一种基于计算机算法的优化分析工具,机器学习是分析大数据不可或缺的重要方法。

3. 大数据的次要特征

大数据的产生得益于信息技术的疾速发展,尤其是互联网与移动互联网技术的广泛运用。互联网设备与传感器的指数增长是产生与搜集海量大数据的次要缘由。大数据的来源很多,包括计算机商业买卖平台、移动电话、社交媒体、网站信息、搜索数据、传感器与卫星图像、交通数据等。在金融市场、各种线下线上商品买卖平台,扫描器与电子支付系统记录了逐笔买卖数据。GPS和北斗传感器记录了地球上各种重要的气候环境数据与物理数据,如中国次要大城市PM2。5的观测值、全球大城市的夜间灯光亮度数据。望远镜与射电望远镜全天候观测太空,实时记录了各种地理物理数据流。各类企业和政府网站也提供了有用的信息,特别是互联网巨头,即所谓的大型科技(Big Tech)公司,如中国的百度、阿里巴巴、腾讯、京东,美国的谷歌、亚马逊、脸书、苹果等。在数字经济时代,海量经济大数据的产生得益于基于计算机的互联网与移动互联网的各种经济活动与商业买卖,而且大数据作为一种新的消费要素,反过来进一步推进经济发展。无人驾驶的发展就是大数据运用的一个典型案例。截至2019年底,中国互联网与移动互联网用户人数超过9亿人,远远超过美国与欧盟网民人数的总和。如今已出现了一个新的GDP概念,即数据生成总值(gross data product),用于测度每个国家或地区的数据资源总量及其应用程度。

大数据具有以下四大特征,即所谓的"4V"特征:

1)海量性(volume)。从各种渠道搜集的信息,包括商业买卖数据、社交媒体数据、传感器数据以及机器对机器数据等,在过去,如何存储如此大规模的数据是一个技术难题,但新技术(如Hadoop)的疾速发展曾经减轻了存储负担。

2)高速性(velocity)。大数据以史无前例的速度产生与传播,必须及时存储与处理。RFID电子标签、传感器、智能停车收费系统完成了实时或近乎实时处理海量数据的需求。在许多状况下,大数据能够会以聚类方式产生,即数据产生的速度并不平均,而是随着工夫的推移出现周期性波动。比如,股市买卖有分明的周期形式,通常收盘和收盘时成交量较大,午间成交量较小。基于事情触发的日常周期性峰值数据在加载管理上难度很大,更不用说非结构化数据了。

3)多样性(variety)。大数据方式多样,既有传统结构化数字型数据,也有非结构化的文本文档、邮件、图片、视频、音频、股票行情数据等。非结构化数据提供了传统数据所没有的非常丰富的新信息,这已成为大数据的一个最重要的特征。结构化数字型数据也有新型数据,如函数数据、区间数据和符号数据(symbolic data)等。

4)真实性(veracity)。与传统数据相比,大数据普通体量庞大,但很多大数据信息密度低,噪声大。此外,也能够存在遗漏数据和操纵数据,导致信息失真,因此有必要停止数据清洗与处理。

大数据的海量性具有双重含义。一方面,大数据拥有非常大的样本容量。许多大数据的样本容量能够是数万甚至是数百万的观测值。假如大数据的样本容量很大且远大于解释变量或预测变量的维数,那么这种大数据称为"高大数据(TallBig data)"。庞大的样本容量意味着可以从大数据尤其是非结构化数据中获取很多新的信息,从而改进对DGP的统计推断。通常,由于计算机容量与计算速度的限制,只要一小部分高大数据用于可行性统计分析(如Engle and Rusell (1998), Engle (2000))。另一方面,大数据的海量性不一定是指样本容量非常大。它也能够是指在给定工夫内从不同维度对DGP的大量描画。换句话说,大数据拥有一个高维的潜在解释变量或预测变量的集合。比如,应用谷歌搜索中国一些城市的旅游趋向。这为探求重要解释变量提供了宏大的能够性与灵敏性。当潜在解释变量或预测变量的维数超过样本容量时,这将给统计建模与统计推断形成宏大应战,这在统计学上称为"维数灾难",而具有此特征的大数据则称为"胖大数据(Fat Big data)"。对于高维解释变量的集合,许多解释变量能够对因变量没有影响,也有能够很多解释变量之间存在多重共线性。因此,有必要发展各种可行的变量选择方法,这本质上是一种变量降维(dimension reduction)或数据归约(data reduction)。

大数据的高速性指的是可以在高频甚至实时条件下记录或搜集数据。这使得及时的数据分析与预测成为能够。比如,在经济统计学中,可以构建高频宏观经济变量,以便及时了解宏观经济变化趋向,提升经济政策干涉的时效性。经济统计学的现行做法只能获取居民消费指数(consumer price index, CPI)和消费者物价指数(producerprice index, PPI)等月度工夫序列数据。但是,基于互联网信息和人工智能工具,完全可以构建CPI和PPI的日度数据,甚至抽样频率可以更高。在工夫序列分析中,高频数据的可获得性可以避免依工夫加总(temporal aggregation)而导致的信息缺失。例如,比起运用每日收盘股票价格数据,我们可以用股价的日内(intraday)数据甚至逐笔买卖数据来估计金融资产的每日波动率。日内工夫序列数据包含了当日价格变动范围,比当日收盘价数据拥有更多的波动信息。再如,可以应用点过程的工夫序列数据来研讨不同资产或不同市场间的Granger (1969)因果关系或工夫维度上的抢先滞后关系。高频数据也使时变结构研讨成为能够。假如模型参数随工夫缓慢改变,我们能够需求更高频的观测值来推断恣意工夫点的参数值。

大数据的多样性指的是数据种类繁多、方式多样,有结构化、半结构化与非结构化数据,而结构化数据也包括一些新型数据,如函数数据、区间数据乃至符号数据等,同时能够结合了不同的抽样频率。长期以来,统计学次要关注传统结构化数据。当今的数据拥有各种来源,也能够有不同的物理存储地址,导致不同系统间各种数据的衔接、婚配、清洗、转换变得困难。如何将不同来源、不同结构、不同方式、不同频率的各种数据汇聚一同,这是一个宏大应战。从统计学角度看,大数据将比传统数据提供更多有价值的信息,因此可以用来发展更高效的统计推断方法与工具。特别是,社交媒体(如微博和脸书)数据越来越受关注,这些信息通常是非结构化或半结构化的数据,很难甚至无法从传统数据中获取。将非结构化数据与传统结构化数据相结合,可以更好推断DGP的本质特征。

大数据的真实性是指大数据存在大量噪声,包括虚伪信息和失真数据。因此,如何去伪存真、有效概括并提取大数据的有用信息显得非常重要。统计分析的本质是有效地从数据中提取有价值的真实信息。虽然很多经典统计方法很有用,如主成分分析和聚类分析,但也需求发展概括、提取大数据中有用信息的新方法与新工具。由于大数据具有容量大、维度高与信息密度低等特点,统计学的充分性准绳在大数据分析方面可发挥宏大作用,尤其在数据归约与变量降维方面,因此我们迫切需求发展基于计算机算法的有效的数据归约方法。

4. 机器学习及其本质

与统计学一样,机器学习也是一种重要的大数据分析工具。在大数据时代,统计学和机器学习曾经成为新兴的数据迷信的最重要分析方法。机器学习由于大数据和云计算的出现而得到迅速发展与广泛运用,但是机器学习不能替代统计分析。例如,虽然机器学习在改善样本外预测和形式辨认(如面部辨认)方面非常有用,但统计学在推断分析、维数约简、因果辨认和结果解释等方面可以发挥很大作用。机器学习与统计学是互补的,两者的交叉交融可以为统计迷信与数据迷信提供新方法与新工具。

"机器学习"这一术语是由人工智能开拓者之一Arthur Samuel于1959年提出来的。机器学习是计算机迷信的一个重要范畴,尤其是人工智能的一个重要组成部分。机器学习应用数学、人工智能工具赋予计算机系统自动"学习"数据、"辨认"形式、并做出预测或决策的才能,无须明白的人工编程。它是从人工智能的形式辨认研讨和机器学习实际中演化而来的,次要探求可以本人有效学习数据并做出预测的算法研讨与算法构建。机器学习可以分为三个次要类别:监督学习(supervised learning)、无监督学习(unsupervised learning)和强化学习(reinforcementlearning)。

监督学习基于训练数据(包含输入和输入)来构建算法。训练数据包含一组训练样例,每个训练样例拥有一个或多个输入与输入,称为监督信号。经过对目的函数的迭代优化,监督学习算法探求出一个函数,可用于预测新输入(非训练数据)所对应的输入。优化目的函数可以使算法准确计算出新输入所对应的输入预测值。监督学习算法包括分类和回归。当输入只能取一个有限值集时,可用分类算法;当输入可取一定范围内的恣意数值时,可用回归算法。

无监督学习在只包含输入的训练数据中寻觅结构,如数据点的分组或聚类。无监督学习算法不回应反馈,而是辨认训练数据的共性特征,并基于每个新数据(非训练数据)所呈现或缺失的这种共性特征作出判别。无监督学习次要运用于统计学概率密度函数估计,也可用于触及数据特征总结与解释的其他范畴。聚类分析是一种重要的无监督学习方法。它将一个观测数据划分为多个子集(称为簇, clusters),使得同一簇的观测数据在一个或多个预设准绳上具有相似性,但是不同簇的观测数据不具有相似性。不同的聚类方法对数据结构做出不同的准绳假设,普通由某种相似性度量准绳所定义,经过外部严密度(同一簇中数据的相似度)和分离度(簇间差异)停止评价。

强化学习是研讨算法如何在动态环境中执行义务(如无人驾驶)以完成累计奖励的最大化。由于强化学习的普通性,许多学科也对该范畴有所研讨,如博弈论、控制论、运筹学、信息论、仿真优化、多智能体系统、群集智能、统计学与遗传算法等。在机器学习中,动态环境普通表现为马尔可夫决策过程(Markov decision process)。许多强化学习算法运用动态规划技术。强化学习算法可用于自动驾驶或与人类博弈比赛。

从本质上说,机器学习是数学优化成绩与算法优化成绩。机器学习与数学优化联络严密,数学优化为该范畴提供了实际、方法与运用。同时,机器学习与计算统计学亲密相关,常常交叉堆叠,注重应用疾速有效的计算机算法停止预测。在机器学习范畴,许多学习成绩可表述为最小化某个预设的损失函数。为了避免过度拟合(overfitting)现象,其最终目的通常转化为基于未知数据的预测误差最小化成绩。详细地说,机器学习基于训练数据,学习与发掘训练数据的系统特征和变量之间的统计关系(如相关性),以预测新的未知数据。为了得到精准预测的算法,普通将现有数据分为两个子集------训练数据(training data)和测试数据(test data)。训练数据用以学习与发掘数据的系统特征以及变量之间的统计关系,然后应用这些系统特征与统计关系预测未知数据的行为。为了保证精准预测,必须避免对训练数据的过度拟合。"过度拟合"现象是指发掘只存在于训练数据但不会出现于未知数据的特征与统计关系,而这些特征与统计关系可以改进训练数据的样本内拟合,但无助于样本外预测。因此,对预测效果的评价需求基于另一部分数据,即测试数据。此外,为了进一步避免过度拟合,通常还引入一个惩罚项,对算法的复杂程度给予相应的惩罚,即算法的复杂程度越高,惩罚越重。因此,机器学习就是从训练数据中寻觅一个优化算法,使预测测试数据的损失函数加上惩罚项最小化,以达到最优样本外预测效果。常见的机器学习方法包括决策树、随机森林、$k$最近邻法、支持向量机、人工神经网络、深度学习等。如今,分别简单引见如下:

决策树(decision tree)。决策树学习将决策树作为预测方法,表现了从一些特征变量(如解释变量)的观测值(在分支中表现)到目的变量(在叶子中表现)的目的值的整个预测过程。决策树学习是统计学、数据发掘和机器学习的一种预测方法。若目的变量取一组团圆值,则决策树称为分类树,其中,叶子代表类标签,分支代表产生这些类标签的功能连词。若目的变量取延续值(通常是实数),则决策树称为回归树。在决策分析中,决策树可详细笼统地描画决策和决策过程。在数据发掘中,决策树对数据停止描画,但是所得分类树可用作决策的输入。

随机森林(random forest)。对大数据特别是胖大数据而言,由于存在很多潜在的解释变量或预测变量,解释变量能够存在着不同程度的多重共线性,使得对样本数据的"微扰(perturbation)"能够导致最优预测模型(不同解释变量的组合)的大幅变动,这称为模型不确定性(model uncertainty)。为了获得稳健预测, Breiman (2004)于提出了随机森林方法。基于原始观测数据,经过反复抽样产生一系列新的随机数据,每个数据扶植一棵决策树,然后对所产生的一系列决策树的预测值停止平均,这种预测方法称为随机森林。

$k$最近邻法($k$-nearestneighbor)。这个方法根据一些特征变量(如解释变量)的取值,选择$k$个取值最接近某个预定值的特征变量观测值,然后将对应于这$k$个取值最临近预定值的因变量观测值停止平均,作为对因变量的一个预测。这个方法称为$k$最近邻法。

支持向量机(support vector machine, SVM)。这是一种用于分类和回归的监督学习方法。若给定一组训练样例,每个样例标记为属于两个类别中的一类,则SVM训练算法可预测新样例属于哪个类别。SVM训练算法是一个非概率的二元线性分类器。除了完成线性分类, SVM也可以停止高效的非线性分类,将其输入隐式映射到高维特征空间中。

人工神经网络(artificial neural network, ANN)。这是一个计算机算法系统,其部分灵感源自构成动物大脑的生物神经网络,经过调查训练数据的样例"学习"如何执行义务。人工神经网络由大量称为"人工神经元(neurons)"的单元或节点互相衔接而成,大致模拟生物大脑中的神经元系统。好像生物大脑中的突触,每个衔接都可以将一个人工神经元的"信号"传递到另一个人工神经元。接收到信号的人工神经元可以处理该信息,然后将信息传递给其他与之关联的人工神经元。人工神经元之间的衔接信号通常是一个实数,人工神经元普通具有一个根据学习所得而调整的权重,可提高或降低衔接中的信号强度。人工神经元能够具有一个阈值,只要当汇总加权信号超过该阈值时才会发送信号。这样,每个人工神经元的输入由其一切输入的权重总和的某个非线性函数(称为激活函数, activation function)计算而得。通常,人工神经元聚集成一个或几个隐藏层(hidden layers)。不同的隐藏层可以对其输入执行不同类型(即不同的激活函数)的转换。信号能够在多次遍历图层后从最后输入层传递到最后输入层。人工神经网络方法的最后目的是以与人类大脑相反或相似的方式处理成绩,但随着工夫的推移,人们将目光转移到执行特定义务上,从而偏离了生物学。目前,人工神经网络已有各种运用,如计算机视觉、语音辨认、机器翻译、社交网络过滤、下棋游戏、电子游戏、医学诊断等。

深度学习(deep learning)。假如人工神经网络包含多个隐藏层,则称为深度学习方法。深度学习试图模拟人类大脑将光和声处理成视觉和听觉的方式。计算机视觉和语音辨认就是深度学习的一些成功运用。

5. 大数据、机器学习与统计学的关系

数据描画是数据分析的终点,这一点在大数据时代由于不同种类、不同方式特别是非结构化数据的出现而显得更为重要。理想上,鉴于大数据的多样性,尤其是文本、图表、音频、视频等非结构化数据,必须开发新的方法与工具来记录、存储、整理、清洗、描画、表现、分析、概括与解释大数据。很多大数据特别是非结构化大数据的获得与分析,都必须运用人工智能技术,一个著名例子是爬虫的运用。美国劳工统计局原来依托人工操作的调查问卷答案分类工作,如今已有85\%被深度学习替代,而且深度学习的准确率高于人工。又如,大数据可视化作为大数据一种直观表现方式,在实践运用中越来越受欢迎。商业智能就是大数据在古代商业中的一个重要运用,它经过运用各种人工智能的技术与方法来提取、概括、表现大数据的重要信息,从而改善商业决策的迷信性与提升企业管理的精细化程度。

由于大数据的"4V"特征,大数据分析需求运用来自不同范畴的方法与工具,包括数学、计算机迷信、统计学、数据迷信等学科。大数据分析的次要目的是从传统数据中发现不易察觉的形式、趋向、异象(anomalies)、关联、因果效应以及其他特征等各种有价值的信息。目前,广泛运用的大数据分析方法与工具次要是机器学习和统计方法,尤其是计算统计学工具。在本节,我们将论证大数据和机器学习并没有改变统计建模与统计推断的一些基本思想,如抽样推断总体分布性质、充分性准绳与数据归约、因果推断、预测等。因此,古代统计学在大数据分析方面照旧将发挥基础性的关键作用。但是,大数据的复杂性和机器学习的广泛运用的确给统计迷信提出了一些重要应战,这些应战有望为推进古代统计学的发展提供各种机遇,尤其是创新统计实际、方法与工具等方面。

5.1 非结构化数据与文本回归分析

从统计学角度看,相比传统数据,大数据特别是非结构化数据将带给我们更多的有价值的信息,这些信息可用于发展新的统计方法与工具。比如,在互联网时代,社交媒体(如微博和脸书)数据常常反映了社会公众或社会群体对每个时期重要事情的看法,而这些重要事情常常对社会经济形成很大影响,因此遭到越来越多的关注(参见Shiller (2019))。社交媒体数据通常以非结构化或半结构化方式呈现,但经过爬虫等技术抓取信息,可用于构建新的解释变量或预测变量,如消费者幸福感指数、投资者心情指数、经济政策不确定性指数、经济政策变化指数、社会舆情指数等(参见Baker and Wurgler (2007), Baker, Bloomand Davis (2016), Chan andZhong (2018))。这些从文本数据构建的重要变量包含传统数据所没有的信息,可经过统计回归模型等方法,分析与测度它们对社会经济金融市场的影响,这就是所谓的文本回归(textual regression)分析。

除了基于社交媒体非结构化数据构建经济心思指数之外,我们还可以经过大数据与人工智能方法,构造高频宏观经济工夫序列指数,如CPI和PPI的每日工夫序列数据。这将有助于我们及时预测宏观经济的变化趋向,包括实时预测(nowcasting);参见文献Giannone, Reichlin andSmall (2008), Bok et al。(2017)。目前,绝大部分宏观经济目的最高频数据是月度数据,像国内消费总值(GDP)这样重要的宏观经济变量还没有月度数据。大数据的出现和人工智能技术的运用可以分明提高宏观经济数据的测度频率。

5.2 抽样推断准绳

大数据并不意味着可以获取DGP的总体分布的完全信息。曾经有一种观点以为,大数据提供了总体分布的 完全信息或近乎完全的信息,因此在大数据时代,海量数据将使推断统计学变得价值有限甚至毫无价值。这种情形只要在统计模型是独一正确设定而且不变的假设条件下才能够发生。众所周知,推论统计学的基本思想是从随机样本推断总体分布特征,而所推断出来的总体分布特征,也合适于描写从同一总体分布产生的其他随机样本。假设某一参数统计模型是正确设定,则当样本容量非常大时,的确可以不必担心参数估计量的抽样可变性(sampling variability),即参数估计不确定性将可以忽略不计。虽然当大数据的样本容量很大时,模型参数估计结果的抽样可变性也因此变得没有以前那么重要,但是经过随机样本推断总体分布特征的统计思想仍未改变,取而代之的很能够是模型选择不确定性。模型选择不确定性能够是由于大数据中存在大量解释变量,而这些解释变量具有不同程度的多重共线性,或者是由于DGP具有异质性或时变性,或者是由于模型误设。因此,当对数据停止"微扰"时,即添加或减少一小部分数据,基于预定统计准绳的最优统计模型将会分明改变。我们知道,机器学习的次要目的,是基于对训练数据的"学习"阅历,预测未知样本的行为或表现。其假设前提是从训练数据中"学习"到的一些系统特征与统计关系(如相关性、异象),会在未知数据中再次出现,不管未知数据是截面数据或工夫序列数据。换言之,机器学习就是从训练数据中发掘出可以泛化到未知数据的系统特征,并根据这些共同系统特征停止预测。假如我们将这些共同系统特征定义为DGP的总体特征,那么机器学习这种样本外预测方法,无论是基于截面数据还是工夫序列数据,均遵照相似从样本推断总体特征的基本统计思想。之所以需求测试与验证的次要缘由是基于训练样本的"学习"阅历能够会存在过度拟合现象,因此不能描写样本外的系统特征。过度拟合能够是由样本选择偏向、异质性、时变性、甚至模型误设所导致。例如,在预测当前新冠肺炎疫情将来发展趋向时,需求思索能够的新冠肺炎病毒变异性,即结构变化。因此,机器学习也可视为服从抽样推断总体分布性质的统计思想,至少是一种广义的抽样推断的统计方法,同时,由于拥有海量大数据, "总体"的概念可以更普通化,即允许具有异质性或时变性的DGP,当然不同异质主体或不同时期的DGP照旧需求假设具有一些共同的系统特征。

机器学习早在20世纪50年代就曾经提出来,但是它的疾速发展与广泛运用发生在从20世纪90年代末尾的大数据时代。海量大数据的搜集、存储、处理与分析必须依赖人工智能方法,而海量大数据的可获得性为机器学习探求与学习数据之间能够存在的复杂关系(如非线性关系)提供了丰富的素材。作为大数据的一种重要分析方法,机器学习与统计学亲密相关,两者拥有一些共同点。机器学习是一种设计、推导复杂算法的数学方法,经过学习训练数据所包含的历史关系与系统特征,应用计算机算法自动得出最佳预测。与统计学一样,机器学习也假设DGP是一个随机过程,而且其结构或概率法则是未知的。算法的核心目的是泛化从训练数据中所"学习"到的阅历,即外推预测,其本质是从训练样本推断未知样本的总体特征。所谓泛化(generalization)指的是机器以学习训练数据的阅历为基础,对一个未知的新样本停止精准预测。普通假设训练样本来自一个未知的概率分布,机器学习需求从训练数据中学习未知概率分布的系统特征,以便对新样本做出准确预测。对未知新样天分够做出准确预测的重要前提是训练数据和测试数据的DGP或概率法则保持不变,这与统计推断经过抽样推断总体分布性质的基本思绪是分歧的。两者最次要的区别在于机器学习的预测不用统计模型而直接基于计算机算法,而统计预测普通是基于某个参数模型,其函数方式假设已知,但包含一个未知的低维参数向量。假如数据容量不大,参数模型能够很有用,但假如数据非常多,模型可以拓展为普通化的数据算法,这样更有能够捕捉大数据中变量之间的各种复杂关系。

均方误差特别是其平方偏向-方差分解就是测度泛化误差的一种常用统计准绳。为了完成最佳泛化,算法的复杂性必须婚配DGP的复杂性。一方面,若DGP比算法结构更复杂,则算法拟合数据的才能较弱。另一方面,假如算法复杂性增高,则训练数据的拟合误差将减小。但是,若算法过于复杂,则会导致过度拟合且泛化误差增大。概率实际可以为测度和约束泛化误差提供一个有效方法。这是机器学习和统计推断共同的概率论基础。理想上,贝叶斯统计学也是机器学习的一个重要实际方法。

在实践运用中,机器学习能够会遇到各种样本偏向成绩。比如,一个只基于现有客户训练数据的机器学习算法并没有表现新客户的信息,因此能够无法预测新客户群的需求。这就是统计学中著名的样本选择偏向成绩,其缘由是不同客户群能够存在潜在的异质差别。另一种能够性是时变性即结构变化所导致的样本偏向。针对样本偏向成绩,可以运用统计学的Holdout方法和$k$折交叉验证法($k$-fold cross-validation)等来验证机器学习算法。Holdout方法将数据分为训练集和测试集,这是最常用的验证方法;而$k$折交叉验证法则是随机地将数据分为$k$组子集,其中$k-1$组用于训练算法,剩下一组用于测试训练算法的预测才能。

在统计分析中,由于传统数据普通样本容量较小,通常采用样本内模型检验法,如模型拟合优度或模型设定检验。但是,假如采用样本内统计准绳,那么模型过度拟合的能够性将不断存在。比如,当解释变量个数添加时,线性回归模型的$R$平方总会越来越大,即便这些解释变量与因变量毫不相关。普通来说,添加模型复杂性可以提高拟合优度,甚至在很多状况下最终总会经过样本内检验。关于统计模型通常最终可以经过基于样本内残差的模型检验的讨论,可参见文献Breiman (2001)。更严重的是,样本内统计建模与统计推断,假如多次反复运用同一个样本数据,有能够会导致所谓的数据窥视偏向(data snooping bias),其缘由是同一个样本数据的多次反复运用能够导致统计分明性程度控制不当(参见Lo and MacKinlay (1990), White (2000))。由于大数据样本容量通常较大,因此可以运用样本外模型检验方法或交叉验证方法,作为一个普通化的模型评价准绳(如Varian (2014))。样本外模型评价很重要,由于误设模型普通不能很好地预测将来样本或其他未知样本。即便一个统计模型对训练数据而言设定正确,但假如存在结构变化,该模型对将来样本的预测能够不准,或者假如训练数据和测试数据之间存在分明异质性,该模型对其他样本的预测效果也能够不好。样本外模型评价还可以有效降低数据窥视偏向。总之,样本外模型验证比样本内模型检验更严厉更迷信,同时更适用于样本容量大的数据。

由于科技提高、偏好改变、政策变化和制度改革, DGP能够会随着工夫而改变。Lucas (1976)指出,感性的经济主体将正确预测政策变化的影响,并相应调整他们的经济行为。当DGP随工夫而改变时,只要最近的数据信息与DGP的现状亲密相关;悠远的旧数据则与DGP的现状越来越不相关,对推断DGP的当下行为用途不大。异样地,由于经济主体之间存在异质性,训练数据的经济主体能够无法代表测试数据的经济主体。因此,现有样本不能提供关于将来DGP或现有样本未涵盖的经济主体的信息。实践上,假如DGP随工夫而改变,任何样本在给定工夫内,无论信息多么丰富,都无法包含将来总体的一切信息。所以,任何工夫序列数据在给定工夫内只能提供一个动态时变随机过程的信息子集,而不是全样本信息。因此,在推断DGP的总体分布特征时,统计抽样实际照旧有用,而且适用于更普通的存在时变性或异质性的状况。

5.3 统计分明性与经济分明性

由于大数据的样本容量大,我们可以探求大数据中能够存在的非线性、时变性、异质性等复杂结构,这是机器学习可以比参数统计模型预测更精准的一个次要缘由。另一方面,样本容量大也能够给统计建模与统计推断的习气做法带来应战。比如,对于样本容量不是很大的传统数据,假如一个解释变量的参数估计量的$P$值根据预设分明性程度(普通为5\%)具有统计分明性,那么通常以为该解释变量是重要变量。如今假设有一个样本容量为100万的大数据,模型的大部分解释变量能够都达到5\%的分明性程度,都具有统计分明性。众所周知,无论真实参数值多小(只需不等于零),随着样本容量不断增大,统计分明性检验最终将会变为分明。那么,对于100万的样本容量,恰恰达到5\%分明性程度的参数估计量意味着什么呢?显然,对于如此大的样本容量,该参数值能够会非常接近(但不等于)零,因此相应的解释变量能够在经济学上并不重要。换句话说,当样本容量非常大时,具有统计分明性并不意味着具有理想重要性或经济重要性。因此,大数据的大样本容量使得传统的统计分明性检验变得不再合适(Abadie et al。(2014, 2017))。同时,这也产生了一 个新的成绩:当样本容量达到100万这么大时,如何衡量解释变量的经济重要性呢?我们需求合适的方法来断定解释变量的经济重要性,而不是仅仅评价其统计分明性。机器学习范畴已提出各种判别特征重要性(feature importance)的方法,其中所谓特征其实就是解释变量。这些方法很多都不依赖于详细参数模型(即model-free)。参见Liu,Zhong and Li (2015)。

为了阐明与模型有关的变量选择方法的重要性,我们举一个简单例子。假设因变量与某个解释变量真实的函数关系是非线性关系,但是我们设定一个线性回归模型,即模型误设。很有能够这个解释变量的$t$-检验统计量在样本容量很大时也不具有统计分明性,则根据线性回归模型的检验结果应该将该解释变量扔掉。显然,这将会导致所谓的遗漏变量成绩。

上述分析表明,当样本容量很大时,只关注一个参数统计模型中的解释变量的统计分明性,其实践意义并不太大。更有意义的是关注模型选择,特别是当存在高维潜在解释变量时,可以经过比较不同的模型以分明提高拟合优度或预测精度,这里所谓不同的模型既可以是指拥有不同的解释变量集合(参见Breiman (2001)),也可以是指不同的函数方式,或者两者的混合。换句话说,对于大数据特别是胖大数据而言,模型选择能够比解释变量的统计分明性更有助于改进对数据的拟合或预测效果。与此同时,高维解释变量的集合能够存在多重共线性或近似多重共线性,根据某一统计准绳(如均方误差),不同的解释变量集合能够会导致相反或相似的预测或拟合。假如对数据停止"微扰",即添加或减少一小部分数据点,便会导致最佳模型的分明改变。这里,抽样可变性导致最优模型的分明改变,这称为模型不确定性(model uncertainty)。因此,在大数据时代,我们可以估计,统计分析将从参数估计不确定性过渡到模型选择不确定性或模型不确定本身。

5.4 模型多样性与模型不确定性

对于一个庞大数据,高维解释变量的集合有很大的能够性存在多重共线性。因此,基于某一统计准绳(如均方误差),不同的统计模型有能够呈现相似甚至相反的统计表现,这称为模型多样性(model multiplicity),即不同模型的统计表现近似甚至相反(参见Breiman (2001))。模型多样性能够与统计学关于DGP的模型独一性假设并不矛盾。一种情形是,存在DGP的独一模型设定,但受限于数据证据和统计工具,无法挑选出正确的模型,一切统计模型都是对DGP的近似,误设模型从不同方面描写了DGP的特征,但根据某个统计准绳,这些误设模型的表现近似甚至相反。在经济学,也能够同时存在多个经济模型可以解释同一经济现象,有些模型甚至还会互相矛盾,这称为模型模糊性(model ambiguity)。Hansen and Sargent (2001), Hansen et al。(2006)研讨了模 型不确定性对经济主体的决策行为的影响。当然,也存在另外一种能够性,即生成数据的DGP并不能用独一模型设 定来描写。举一个统计学的著名例子------污染数据,这些数据是由两个或两个以上不同的概率分布所生成的随 机数的集合,需求用一个混合概率分布来描写。在经济学中,经济主体在不同形状下能够有不同的经济行为。在这种状况下,需求用一系列模型的"组合"来描画整个经济的运转,其中每一个模型描画某个形状下的经济行为,而这些模型的"组合"可由某种概率法则(如马尔可夫链转移概率)决议。统计学和计量经济学一个著名的"组合"模型就是马尔可夫链转移模型(参见Hamilton (1989))。

基于同一统计准绳,对数据的"微扰"能够会导致最优统计模型的分明改变,这种模型不确定性在实践运用中并不稀有,与模型多样性亲密相关。另一方面, DGP也能够会出现结构变化。工夫序列数据的每个工夫段存在一个最佳预测模型,但由于结构变化,最佳预测模型会随着工夫而改变,这称为模型不波动性(model instability)。

模型不确定性与模型不波动性使得稳健统计分析变得格外重要。在模型不确定性和模型不波动性条件下停止统计建模与统计推断是大数据统计分析的一个新方向,曾经获得一些停顿。普通而言,假如数据杂糅或者不同形状下存在不同经济行为,那么模型平均(model averaging)或模型组合能够是最佳预测方法。在预测范畴(如Hansen (2007)),已提出了用各种模型平均法或预测组合法来提高预测的稳健性和准确性,这种想法至少可追溯到Bates and Granger (1969)的预测组合方法。在机器学习范畴,为了克制模型不确定性带来的影响, Breiman(2004)提出了随机森林方法,经过计算机反复抽取产生一系列相关性不太强的随机样本,对每个样本训练一棵决策树,然后对一切决策树预测取平均以获取稳健预测。

5.5 充分性准绳、数据归约与维数约简

样本容量大并不是胖大数据的最重要特征。对工夫序列数据而言,大数据的工夫维度信息总是遭到工夫长短的限制(当然,实时或近乎实时的记录可以提供高频观测值)。但是,假如大数据包含高维潜在解释变量的信息,关于DGP的横截面信息就非常丰富。当解释变量的数目多于样本容量时,从统计学维数灾难的角度看,胖大数据理想上是一个"小样本"。因此,需求发展新的统计降维方法以选择重要解释变量,这其实是一种数据归约(data reduction)方法。数据归约本质上是统计学充分性准绳的一种方法,为高维参数统计模型的有效推断提供了弱小的分析工具。统计分析就是寻觅最有效的手腕(模型、方法、工具等)从数据中总结、提取有价值的信息,而充分性准绳是从样本数据中总结信息的一个统计学基本准绳。充分统计量在统计推断中可以完全总结样本数据中一切的关于未知模型参数信息的低维统计量。鉴于大数据的样本容量大、潜在解释变量的维度高以及信息密度低等特点,统计充分性准绳在大数据分析中将发挥非常重要的作用。我们需求创新分析大数据的数据归约方法,其中最重要的一种方法是变量降维(dimension reduction),特别是在胖大数据条件下的变量选择。这种降维方法可视为机器学习方法在高维统计建模分析中的运用,属于"统计学习"(statistical learning)的交叉范畴。

在"统计学习"这一新兴的交叉范畴,Tibshirani (1996)提出LASSO方法,可以在一个高维线性回归模型框架中挑选出重要解释变量并扫除众多不相关的协变量。简单地说,LASSO方法的目的函数是最小化高维线性回归模型的残差平方和,加上一个对高维回归模型维度的惩罚项。这个惩罚项是一切回归系数的相对和。给定稀疏性(sparsity)假设,即假设一切潜在解释变量中只要多数未知变量的系数不为零时,LASSO方法及其拓展(如Fanand Li (2001), Zou (2006))可以在样本容量趋于无量大时正确辨认那些系数不为零的解释变量。因此,LASSO方法可视为在一个高维线性回归模型框架下统计推断和机器学习相结合的一种重要的变量选择方法。从统计学的充分性准绳看,这本质上是一种数据归约。LASSO方法在统计学与计量经济学范畴拥有广泛的运用前景。例如,在2SLS和GMM估计中,选择有效的工具变量不断是一个难点(参见Belloniet al。(2012))。因此,可以运用相似LASSO的方法从大量潜在工具变量中挑选出重要工具变量,以改进2SLS和GMM估计效率。又如,高维方差-协方差的降维估计,也可以经过拓展LASSO方法得以完成(参见Cuiet al。(2020))。理想上,变量选择成绩还可以拓展到高维非线性回归模型和高维非参数回归模型。

5.6 机器学习与非参数建模

如前文所言,机器学习不用参数统计模型,而是直接基于数据构建算法。这些算法从训练数据中学习系统形式,并基于这些系统形式停止预测。许多状况下,机器学习算法可以得到精准的样本外预测。但是,这些算法就像黑箱一样,很难甚至无法解释为什么可以得到比较精准的样本外预测。运用基于测试数据的泛化准绳,可以解释其中一部分缘由,但不能解释全部。

理想上,机器学习算法相似于统计学的非参数分析方法。不少重要的机器学习方法,如决策树和随机森林,最早是由统计学家首先提出来的。与参数统计建模方法不同,非参数方法不对DGP的结构或总体分布假设任何详细的函数方式,而是让数据告诉合适的函数方式。非参数方法关注对数据的拟合优度,如最小化残差平方和,同时也顾及拟合函数的平滑性(如二阶延续可导),最终经过选择一个平滑参数(smoothing parameter)使均方误差中的方差和平方偏向达到平衡,这样便可分歧估计关于DGP的未知函数,如回归函数或概率分布函数。

许多机器学习方法具有很强的非参数方法的特征,加上运用基于测试数据的泛化准绳,非参数分析可以从实际上解释为什么很多机器学习方法在大数据条件下可以获得较好的预测效果。例如,Lai (1977)经过推导$k$最近邻法($k$-NN)均方误差中的方差和平方偏向的收敛速度,证明当整数$k$随着样本容量$n$的添加而添加,但添加速度比$n$慢时,$k$最近邻法可以分歧估计未知回归函数。Breiman(2004)证明,假设DGP存在独一的未知概率分布,而数据由独立分布的随机样本遵照未知概率分布生成,那么假如决策树的节点数量随着样本容量的添加而添加,但其添加的速度比样本容量慢,则决策树可以分歧估计DGP的未知概率函数。Biau, Devroye and Lugosi (2008),Scornet, Biau and Vert(2015)证明了随机森林可以分歧估计未知回归函数。White(1989,1992)则严厉证明了人工神经网络估计的分歧性,前提是假设隐藏层的数量随着样本容量的添加而添加。人工神经网络是模拟人类认知过程的一个非参数模型,假如其复杂性随样本容量的添加而添加,最终可以分歧估计出未知回归函数。实践上,就变量选择而言,许多机器学习算法比典型的非参数方法更灵敏。对于非参数分析,由于臭名昭著的"维数灾难"成绩,需求事前给定解释变量,而且这些解释变量的维度不能太大,否则在实践中无法运用。相比之下,机器学习常常面对大数据中高维的潜在解释变量,其维度很大甚至超过数据的样本容量,机器学习可以经过合适算法疾速"穷尽"一切合适的解释变量子集,为最佳预测挑选出一个低维的重要解释变量集合。这是机器学习比非参数方法更有优势的一点。

统计建模与机器学习的交叉交融是大数据分析的一个重要发展趋向。一方面,没无机器学习,无法想象如何分析海量大数据。另一方面,大数据是我们可以"教"机器而不用直接为它们编程的次要缘由之一。大数据的可获得性使得训练机器"学习"形式成为能够。相对于参数统计模型,机器学习算法的难点之一是缺乏可解释性,这是由于机器学习方法直接基于数据构建算法而非用参数建模。相反地,统计推断大多采用参数建模。严厉地说,一个统计参数模型只能描写数据与DGP的一些总体特征,但通常并非全部总体特征(除非模型正确设定)。

因此,统计参数模型所描写的证据其实是模型证据(model evidence),与直接基于数据的机器学习所描写的证据存在一定差别。由于其灵敏性与普通性,机器学习所描写的证据将比较接近数据原有的证据,即数据证据(data evidence)。模型证据与数据证据之间的差别,对我们在解释统计推断特别是参数假设检验的实证结果时,非常重要。例如,运用一个$p$阶线性自回归模型验证金融市场有效性假说时,假如我们基于观测数据发现一切自回归系数均为零,这并不意味着市场有效性原假说是正确的,由于线性自回归模型只是众多预测金融市场方法中的一种,很有能够收益率数据存在可预测的成分,但是需求运用非线性模型。由于机器学习与非参数方法一样,并不依赖某一个特定的统计模型,因此机器学习发现的证据将比较接近数据证据,从而避免参数统计模型的缺陷。

5.7 相关性与因果关系

曾经有一种观点,以为大数据分析只需求相关性,不需求因果关系。之所以产生这个结论,一个次要缘由是在大数据条件下,有很多实时或高频数据,而基于实时或高频数据的预测次要是依托相关性,而不是因果关系。但是,很多状况下,经济因果关系在高频或实时条件下能够还无法充分显示出来,所以不需求因果关系的结论是不对的,至少不适用于经济学。

在许多实践运用中,机器学习方法,如决策树、随机森林、人工神经网络、深度学习等,基于数据的系统特征与统计关系(如相关性)的确可以停止精准的样本外预测。但是,经济研讨的次要目的是推断经济系统中经济变量之间的因果关系,揭示经济运转规律。比如,在信誉风险管理中,大数据分析可以协助查明信誉风险的根本缘由,尽早发现能够的欺诈行为以防止金融机构遭受损失,这些都需求分析大数据背后的因果关系。

在大数据时代,经济因果关系照旧是经济学家与计量经济学家在经济学实证研讨中的次要目的。信息技术,尤其是互联网、移动互联网与人工智能,从根本上改变了人类的消费方式与生活方式,但它们没有改变经济学因果推断的目的。在过去20年,计量经济学诞生了一门新兴学科,即政策评价计量经济学(econometrics of program evaluation),研讨非实验条件下经济因果效应的辨认与测量。所谓因果关系是指在一切其他变量(如控制变量$Z$)不变的条件下,改变一个变量(如政策干涉$X$)能否会导致另一个变量(如经济结果$Y$)的改变。假如有,则称存在从$X$到$Y$的因果关系。在实验迷信中,要辨认因果关系或检验一个政策干涉的效应,可以将实验主体随机分为两组,一组是实验组,接受实验干涉,另一组是控制组,不接受实验干涉,其他条件或变量则保持不变。干涉效应是两组在同等条件下的结果之差。

在计量经济学中,当评价政策效应时,由于经济系统的非实验性特点,往往无法停止控制实验,尤其是无法确保实验组与控制组满足"同等条件"假设。统计学和计量经济学关于政策评价的基本思想是,在同等条件下,比较实施了该政策的观测结果与假设没有实施该政策的虚拟理想。在已实施某个政策的理想状况下假设这个政策没有实施,显然是一种虚拟假设,该虚拟假设下的经济结果常称为虚拟理想(counterfactuals)。由于虚拟状况不会真正发生,故需求对虚拟理想停止估计,这本质上是一种预测。这可以借助一个统计模型来估计,也可以经过机器学习来预测。鉴于机器学习精准的预测才能,机器学习有望精准估计虚拟理想,从而准确辨认与测度经济因果关系。换句话说,虽然机器学习不能直接揭示因果关系,但它可以经过准确估计虚拟理想协助准确辨认与测度因果关系。关于因果推断,可参见Pearl(2009), Varian (2016)。

5.8 新型数据建模

除了非结构化数据(如文本、图像、音频、视频数据等),大数据包括很多新型的结构化数据。例如,函数数据就是一种新型数据,而大家比较熟习的面板数据(参见Hsiao(2014))是函数数据的一个特例。函数数据的例子还有很多,如一天内温度是工夫的函数;每个买卖日从收盘到收盘,股票价格是工夫的函数;从1岁到15岁,女孩每月测量的身高是工夫的函数。另一种新型数据是区间数据(interval-valueddata),即某个变量取值的范围。相对点 数据(point-valued data)来说,区间数据包含更多关于变量的程度和变化范围的信息。区间数据在理想生活中并不少见,如病人每天的最高血压与最低血压、每天天气的最高温与最低温、每天股票的最高价与最低价、金融资产的买卖差价等,均构成区间数据。也可以经过结合多个原始数据得到区间数据,如某行业男性员工与女性员工的平均工资、乡村家庭与城镇家庭的平均支出。区间数据是符号数据(symbolic data)的一个特例,符号数据是更普通化的数据方式。新型数据比传统点数据包含更多信息。很多状况下,人们普通是将这些新型数据转换为点数据,然后运用传统的计量经济学模型与方法停止分析。但是,将新型数据转换为点数据,通常伴随着信息损失。因此,直接对这些新型数据停止建模比先将它们转化为传统点数据再建模更有价值。新型数据需求新的统计模型与统计方法。在这方面,统计学和计量经济学已产生了一些原创性成果,如函数数据分析(functional data analysis)和区间数据建模。关于函数数据分析,可参见文献Horvath and Kokoszka (2012),而关于区间数据建模,可参见Han et al.(2018), Sun et al. (2018)。

6. 总结

本文讨论了大数据与机器学习给统计迷信的实际与运用带来的影响、应战和机遇。首先,虽然大数据正在改变基于统计分明性的统计建模和统计推断的传统做法,但大数据并没有改变从随机抽样推断总体分布特征的统计思想。重要的统计学准绳,如抽样推断、充分性准绳、数据归约、变量选择、因果推断、样本外预测等基本统计思想,在大数据分析上照旧适用,一些统计学方法如充分性准绳甚至由于大数据的出现而变得愈加重要,但其详细的方法与表现方式需求有所创新。其次,大数据允许放松统计建模的一些基本假设,如模型独一性、正确设定与颠簸性,从而扩展了统计建模与统计推断的运用范围。再次,大数据,尤其是非结构化数据,带来了很多传统数据不具有的有价值的信息,大大拓展了实证研讨的范围与边界。最后,新型数据也催生了新的统计模型与方法。

机器学习是伴随大数据和云计算的产生而广泛兴起的大数据分析方法。它是计算机自动算法,经过学习训练数据的系统特征与统计关系而对未知样本停止预测,这与统计学由抽样推断总体的思绪分歧。机器学习与数理统计学拥有相反的随机概率基础,但它不假设DGP的结构或概率分布满足详细的函数或模型方式,而是经过计算机算法从训练数据中学习数据的系统特征与变量之间的统计关系,完成样本外预测与分类。机器学习算法通常以精准的样本外预测著称,但它们常常就像黑箱一样,很难甚至无法解释。但是,很多重要的机器学习方法,如决策树、随机森林、$k$最近邻法、人工神经网络以及深度学习,与非参数分析的基本思想分歧或非常相似。因此,可以从非参数方法的视角、从统计实际上阐明为什么机器学习方法在大数据和运用泛化准绳条件下可以获得精准的样本外预测。机器学习与统计建模相结合催生了一个新的交叉范畴,即统计学习。比如,统计学习中的LASSO方法及其拓展就是一种弱小的变量选择方法,它可以在一个高维线性回归模型框架内,正确挑选出重要的解释变量,并扫除大多数不相关的变量。统计学和计量经济学中存在很多高维建模与数据归约难题,这些难题有望经过自创、运用与创新机器学习的方法加以处理。

洪永淼,汪寿阳。大数据、机器学习与统计学:应战与机遇[J]。计量经济学报,2021,1(1): 17-35。

HONG Yongmiao, WANG Shouyang。Big Data, Machine Learning and Statistics: Challenges and Opportunities[J]。China Journal of Econometrics, 2021,1(1): 17-35。

一瓣公益

[attach]516137[/attach]

这是一瓣在2018年4月23日“世界读书日”发起的一个公益活动。每篇文章获得的赞赏,全部捐赠给“深圳市石门坎教育公益基金会”,为石门坎的孩子建一个“图书馆”。感激各位读者的支持,目前已为小冤家们筹集约两万元图书基金”。

作者: 陈大大无敌    时间: 2021-2-7 20:51
支持,赞一个
作者: 宁莹莹    时间: 2021-2-8 20:36
我觉得不错,太厉害了
作者: 金色d记忆    时间: 2021-2-9 20:50
沙发位出租,有意请联系电话:13888888888




欢迎光临 智客公社 (https://bbs.cnaiplus.com/) Powered by Discuz! X3.5