知乎热议:纠结-计量经济、时间序列和机器学习

发布时间:2021-03-22 阅读 623

Stata连享会   主页 || 视频 || 推文 || 知乎

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

New! lianxh 命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh

课程详情 https://gitee.com/arlionn/Course   |   lianxh.cn

课程主页 https://gitee.com/arlionn/Course

⛳ Stata 系列推文:

作者: 张瑞钰 (中南财经政法大学)
邮箱: zhangruiyu0203@163.com

编者按:本文主要是根据以下知乎内容整理,特此致谢!
Source:计量经济学、时间序列分析和机器学习三者有什么区别与联系? -Link-


目录


一个疑惑: 知乎网友提了个有意思的问题「计量经济学、时间序列分析和机器学习三者有什么区别与联系?」,引来了一众知乎同学们的关注,其中甚至包括我们亲爱的大 V —— 慧航 大师。今天,我们就把相关的讨论梳理一下,以便初入行或准备入行的同学们参考、借鉴。

先看看第一位知乎答友 平三儿回答

说实话我没太看懂题主的问题,可能是刚睡醒的原因,哈哈哈哈。 不管怎样,先分享一些这一段读到关于ML和计量经济学的东西。 我们亲爱的Varian(范里安)老先生近几年特别热衷于把ML的一些东西试着转化为经济学(计量经济的成果)。

  1. 这篇文章是老先生对数据的感慨与肯定,基本上就是说太强了我们要好好学好好用,好想做一个统计学家啊之类的:Varian Hal R., Beyond Big Data
  1. 之后呢,老先生又说他在 working on ML 怎么从经济学中学到东西。 附上他的答案的Quora的连接 Why is econometrics isolated from the big data/machine learning revolution?

  2. 我觉得 William Chiu 的回答很贴切, 他说「Econometricians, rightly so, want to be able to explain observed phenomena. Many, though not all, machine learning techniques (neural network, SVM, ensemble) have a very difficult time quantifying the impact of one variable on the observed phenomena.」我觉得这是个一发入魂的意见,就是经济学家或者计量经济学经常在纠结的 interpret 的问题,就是说要怎么解释阐述理解变量。

    然后他又说「Econometricians are taught to begin with a theory and build a model to validate/invalidate the theory. Start with the theory. Machine learners start with the data.」 这个还是有一些偏颇就是经济学家从理论出发,而数据分析师则是从数据出发。

    说到这里想起来大学时我的一个统计学老师说的一个问题,其实统计学家也常常因为各种原因,主要是专业的限制困惑于‘interpret’。

  3. Quora上还有好多关于这个问题的看法,有兴趣的话真的可以好好研究一下,这是个比较前沿而且特别实际的话题,我看了一些之后觉得真的是受益匪浅。

  4. 最后附上Varian老先生的一篇文章,这篇文章与其说是一篇paper不如当作一个 Machine Learning Econometric 101

1. 名词定义

1.1 计量经济学

  • 你观察到一个现象,提出了一个解释现象背后因果关系的假设:X 导致了 Y。然后,又设计了一个随机对照实验,将研究对象分为对照组和干预组,并对干预组实施处理,你希望通过观察实施处理后干预组和对照组的差别来检验假设;
  • 你观察到一个现象,提出了一个解释现象背后因果关系的假设:X 导致了 Y。你设计了一个随机对照实验,然而由于某些外部条件限制,随机对照实验无法进行。于是退而求其次,采取准随机对照实验,让实验对象自我选择是否接受干预,你希望通过观察自然分组的干预组和对照组的差别来检验假设;
  • 你观察到一个现象,提出了一个解释现象背后的因果关系的假设:X 导致了 Y。由于难以确定组内性质较为均一的对照组和干预组,随机对照实验和准随机对照实验均不可行。于是你大量搜集数据,希望通过分析 X 和 Y 的相关性来支持假设,尽管观察性的非实验研究并不能直接证明假设。

以上三种情况都要用到统计学的工具检验干预的效应或相关性在统计意义上是否显著。当这些统计学工具被应用于检验经济学理论时,就可以认为是计量经济学的内容。经典计量经济学方法以回归分析为主,主要因为经济学研究中随机对照实验往往不可行,控制变量则是对缺少随机分组的一种补偿。( ⛳ 来源: 网友 Ziqiao Chen )

统计学是用统计量解读数据、认识世界;统计是搜集、加工、推断和解释信息的技术;计量经济学是用模型解读数据、描述历史。( ⛳ 来源: 网友 葛通 )

作为一个搞控制的人,后来学习计量,感觉高级计量就是一大推矩阵计算去做高维数据的统计分析,只不过数据范围都是来自于经济金融领域;另外,计量的主要用途是用来做实证,当你去验证一个 idea 时,用计量来拟合数据,做一些结果的显著性检验。( ⛳ 来源: 网友 文召 )

一个通俗的补充,计量经济学研究的是,假设一个 idea 认为 X 和 Y 有关系,建立一个模型 (符合计量基本假定) 并估算参数,解释它们之间相关关系的大小以及可信度。然而,重点来了,它们之间到底是谁影响谁,不知道,说白了就是无法检测因果。( ⛳ 来源: 网友 Lollapalooza )

1.2 时间序列分析

如果样本数据不是来自时间的一个横截面上,而是对同一研究对象在不同时间点的多次观察,这种数据叫做时间序列数据,处理和分析这种数据的方法统称时间序列分析。( ⛳ 来源: 网友 Ziqiao Chen )

时间序列是计量的一个分支,也就是自回归而已,个人偏爱金融时间序列分析,当年将 ruey tsay 那本书看了几遍。窃以为波动率是现代时间序列的核心吧, engel 和 granger 两位大师发展了这个学科。( ⛳ 来源: 网友 文召 )

1.3 机器学习

个人粗浅的理解是用一些算法从已知的数据中寻找规律构建预测模型,并通过 “学习” 新数据优化模型,提高预测的准确性。( ⛳ 来源: 网友 Ziqiao Chen )

机器学习是选择合适的模型、策略和算法,借助数据发现知识。( ⛳ 来源: 网友 葛通 )

机器学习没有系统的学习过,当年为了比较 non-linear 对 linear 的优势,学过 stanford 的那个 ml 公开课,学习起来比计量更有意思,用到的数学差不多,但是不需要计量上的那么多显著性检验。( ⛳ 来源: 网友 文召 )

机器学习我没怎么深入了解过,只能从宏观上讲讲它是要做什么。我也只学习过惩罚线性回归和集成方法的一丢丢内容。从原理上来讲它克服了计量的欠拟合和过拟合的局限,旨在解决函数逼近问题。就是在一个数据集里训练,然后得出 X1,X2,Xn (特征输入) 哪个输入对 Y 的预测结果最重要,这一点是传统意义上的计量模型做不到的。( ⛳ 来源: 网友 Lollapalooza )

2. 三者的联系

时间序列分析也是计量经济学的一种方法。( ⛳ 来源: 网友 Ziqiao Chen )

计量经济学的语境中与时间序列数据 (time series data) 并列的是横截面数据 (cross-sectional data)、混合横截面数据 (pooled cross-sectional data) 和面板数据 (panel data)。顾名思义,横截面数据是同一时间点对多个对象观察得到的数据,混合横截面数据和面板数据则是多个时间点对多个对象观察得到的数据,两者的区别是面板数据的观察对象是固定的,混合横截面的观察对象则不固定 (例如不同年份的人口抽样调查)。( ⛳ 来源: 网友 Ziqiao Chen )

联系的话,都是让数据说话。模型是为问题而生,而不是为正确而生,数据分析如此,经济学也是如此。( ⛳ 来源: 网友 葛通 )

传统的计量或者统计分析数据包含四方面工作,即分析、估计、假设检验、预测,机器学习主要目的是预测,其他的不重要,数据挖掘更侧重数据的分析。( ⛳ 来源: 网友 文召 )

在高级计量里面,时间序列和机器学习是计量经济学的子集。( ⛳ 来源: 网友 小农数据 )

这三者并不是并列关系,计量对时间序列是包含关系,机器学习和计量在基础设定方面有交叉。它们共同的基础源于数学和统计学知识。( ⛳ 来源: 网友 Lollapalooza )

3. 三者的区别

Econometricians are taught to begin with a theory and build a model to validate/invalidate the theory. Start with the theory. Machine learners start with the data. ( ⛳ 来源: 网友 平三儿 )

机器学习只关注数据本身,算法多涉及逻辑分类,难以直观的联系到社科理论,而社会科学最关心的恰恰是解释现象的理论,因此机器学习在实证研究的应用目前还比较少。不过常用的计量经济学回归模型在应用中经常出现过度拟合问题,在预测上表现不佳,已有一些 CS 出身的社科学者开始使用源自机器学习领域的方法,如交叉验证 (cross validation) 提高预测模型的稳健性,对比随机森林模型和线性、非线性回归模型的预测效果等。( ⛳ 来源: 网友 Ziqiao Chen )

除了经济学研究以外,时间序列分析还有很多其他用途,就好像日本既属于东亚地区也属于环太平洋地区,或者詹姆斯既可以打小前锋也可以客串大前锋,教练等等。( ⛳ 来源: 网友 Ziqiao Chen )

计量里面用的比较多的还是线性回归,机器学习更多的应用非线性 model,在数据量比较大时,非线性方法或许更好。( ⛳ 来源: 网友 文召 )

从研究的动机上来讲,计量经济学研究的是因果,时间序列分析范围太大不做讨论,机器学习就是相关性。从赚钱的角度来讲,如果你真的懂计量,你的收入不会很高。如果你真的懂机器学习,你的收入不会很低。( ⛳ 来源: 网友 慧航 )

个人觉得从时间维度上来说,计量经济学在研究当前指标上更有深度,而时间序列则以时间为重要依据,对当前现象总结,以便于对未来的预测。从各自涉及领域上,计量经济学更偏重经济学了,时间序列则不然,在各个领域都有非常广泛的应用。( ⛳ 来源: 网友 Kristenbaby )

计量经济学往往具有经济学涵义,也就是你先走模型验证结论,机器学习则有黑箱性质,也就是你可以做出预测,但没有经济学意义。( ⛳ 来源: 网友 惊梦 )

4. 相关资料

  • Varian H R. Beyond big data[J]. Business Economics, 2014, 49(1): 27-31. -PDF-
  • Varian H R. Big data: New tricks for econometrics[J]. Journal of Economic Perspectives, 2014, 28(2): 3-28. -PDF-

5. 相关推文

Note:产生如下推文列表的 Stata 命令为:
lianxh 时间序列 机器学习
安装最新版 lianxh 命令:
ssc install lianxh, replace

相关课程

免费公开课

最新课程-直播课

专题 嘉宾 直播/回看视频
最新专题 文本分析、机器学习、效率专题、生存分析等
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
面板模型 连玉君 直击面板数据模型 [免费公开课,2小时]
  • Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。

课程主页

课程主页

关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。
  • 连享会-主页知乎专栏,400+ 推文,实证分析不再抓狂。直播间 有很多视频课程,可以随时观看。
  • 公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法

连享会主页  lianxh.cn
连享会主页 lianxh.cn

连享会小程序:扫一扫,看推文,看视频……

扫码加入连享会微信群,提问交流更方便

✏ 连享会学习群-常见问题解答汇总:
https://gitee.com/arlionn/WD

New! lianxh 命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh