APP下载

大数据: 计量经济学的新技巧

2018-12-06黄洲丹河南大学经济学院

新商务周刊 2018年16期
关键词:计量经济学机器工具

文/黄洲丹,河南大学经济学院

1 前言

计算机现在涉及许多经济交易,并且可以捕获与这些交易相关的数据,然后可以对其进行操纵和分析。传统的统计和计量经济学技术(如回归)通常效果很好,但是大数据集可能需要使用不同的工具。

首先,所涉及的数据的庞大规模可能需要更强大的数据处理工具。其次,我们可能有更多的潜在预测因子而不是估计的适当预测因子,因此我们需要进行某种变量选择。第三,大型数据集可以允许比简单线性模型更灵活的关系,诸如决策树,支持向量机,神经网络,深度学习等机器学习技术可以允许更有效的方式来建模复杂的关系。

2 涉及大数据集的问题

历史上经济学家一直在处理适合电子表格的数据,但随着新的更详细的数据变得可用,这种情况正在发生变化。如果电子表格中有超过一百万行,您可能希望将其存储在关系数据库中,例如MySQL。关系数据库提供了一种使用结构化查询语言(SQL)存储,操作和检索数据的灵活方式,这种语言易于学习,对于处理中型数据集非常有用。

但是,如果您有几千兆字节的数据或几百万个观察值,标准关系数据库就变得难以处理。管理这种大小数据的数据库通常称为“NoSQL”数据库,它在数据处理能力方面比SQL数据库更原始,但可以处理更大量的数据。

处理大型数据集的另一个潜在问题被称为过度拟合问题。当线性回归捕获数据集中的稳固关系但遇到非常差的样本外预测能力时会遇到这种情况,非常复杂的模型可能描述的是噪声或随机误差,而不是模型中真正的基础关系,这称为过度拟合。过度拟合是非参数非线性模型中特别关注的问题,其本质上往往是复杂的,描述噪声的模型仅适合该特定数据集,并且在样本外数据集中表现不佳。解决此问题的两种常用方法是使用不太复杂的模型,或是将大型数据集分解为小样本,以测试和验证是否存在过度拟合。

3 操作和分析大数据的不同工具和技术

使用大数据进行预测是机器学习的重点,如果存在线性关系,可以利用回归;如果存在非线性关系,机器学习可以部署工具,例如分类和回归树,交叉验证,条件推理树,随机森林和惩罚回归。分类可以被认为是二项式决策树,分类和回归树在解释复杂和非线性关系时非常有用,k折交叉验证和随机森林是操作和分析大数据的两个主要工具。

3.1 k折交叉验证

前面提到的涉及大数据的一个主要问题是树倾向于过度拟合数据,这意味着样本外预测不如样本内那样可靠,过度拟合的一个潜在解决方案是交叉验证。在k倍交叉验证中,较大的数据集被分解为“k”个子集(也称为折叠)。大型数据集可能会分解为10个较小的数据池。

这个过程从折叠1作为测试集开始,折叠2-10作为训练集。研究人员将在所有训练集中寻找统计关系,然后使用折叠1来测试输出,看它是否具有预测用途;然后,他们将重复该过程k次,使得每次折叠成为测试集,结果最终取自所有测试的平均值以找到共同关系。通过这种方式,研究人员可以测试他们对样本外数据集的预测,这些数据集实际上是较大数据集的一部分。

3.2 随机森林

构建随机森林也是一种改进大型数据集预测的方法,此方法使用引导从大型数据集中生成多个树,使用随机森林来平均许多小模型即使在处理非线性数据时也会产生非常好的样本外拟合。计算机使这种方法更加可行,因为有时可以在随机森林中种植数千棵树,创建随机森林有四个步骤:

1.从完整数据集中选择一个自举样本(带有替换)并生成一棵树;2.在树上的每个节点上,选择一个随机的预测变量用于决策,在这个过程中不需要修剪;3.多次重复此过程以生长树木的“森林”;4.使用每棵树对新观察进行分类,并根据森林的多数投票选择最终分类。

4 计量经济学与机器学习之间的协作

有几个不同的领域,计量经济学和机器学习之间可能存在有用的协作。大多数机器学习假设数据是独立且相同的,并且大多数数据集都是横截面数据,在实践中,时间序列分析可能更有用。计量经济学可以使用贝叶斯结构时代系列模型等工具来预测时间序列数据。

也许最重要的合作机会与因果推理有关,这可能是大数据的自然副产品,相关并不总是表明因果关系。传统上,机器学习一直是最纯粹的预测,但计量经济学家已经开发了许多工具来揭示因果关系,将这些工具与机器学习相结合可以证明是非常有意义的合作。

5 小结

大数据不再追寻经济行为之间的因果关系,转而用相关关系挖掘经济行为之间的联系。这给计量经济学研究带来的好处就是:大数据量化经济风险,减弱了经济行为中因信息不确定性带来的逆向选择和道德风险;大数据提供计量经济学更大的探寻历史、追寻未来的空间;传统计量经济理论多为“纸上谈兵”,大数据给传统计量经济学带来新转机,使得经济理论预测和现实经济行为贴合度更高。种种迹象表明大数据和计量经济学融合必将结出丰厚的果实,未来可能诞生大数据计量经济学派。

猜你喜欢

计量经济学机器工具
机器狗
机器狗
波比的工具
波比的工具
计量经济学实验教学模式改革研究
计量经济学实验教学模式改革研究
准备工具:步骤:
我与计量经济学
未来机器城
大数据背景下大学本科计量经济学实践性教学模式研究