大数据:使用时需要考虑的问题

发布时间:2023-07-07 阅读 1924

Stata连享会   主页 || 视频 || 推文 || 知乎 || Bilibili 站

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

New! lianxh 命令发布了:
随时搜索推文、Stata 资源。安装:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
连享会新命令:cnssc, ihelp, rdbalance, gitee, installpkg

课程详情 https://gitee.com/lianxh/Course

课程主页 https://gitee.com/lianxh/Course

⛳ Stata 系列推文:

PDF下载 - 推文合集


目录


作者: 袁瑜彤 (西北大学)
邮箱: 794016076@qq.com

1. 引言

什么是大数据

在当今这个互联网高速发展和信息爆炸式增长的时代,人们可能对“大数据”不再陌生,“大数据”指的是比传统的机器可读数据源更大、更复杂的数据,它更加关注相关性,即人与人之间、人与事物之间、事务与事务之间的关系。

大数据源

“大数据”是一个总括性术语,包括许多不同类型的数据。会计和金融研究中最早使用的大数据来源之一是文本内容,文本数据可能很大,而且本质上是非结构化的,在用于统计分析之前需要额外的处理。同样的,图像,如高管的脸或他们的签名,以及视听内容,如电话会议或路演,需要专门的处理技术。更广泛地说,IoT(物联网)设备,如家庭、医疗、制造、零售和运输环境中的智能和连接设备,会产生大量的数据,可以用来数据分析。然而大数据虽新颖便利,但其并非解决使用更多传统数据源时面临的问题的“万能药”。

2. 四个需要考虑的问题

在使用大数据时,由于没有对研究项目的规划与选择做出正确分析而盲目地使用大数据,会导致项目无法克服以下提到的问题而最终被放弃。因此,研究人员在使用某个特定的大数据源之前应该考虑的以下四个实际问题:

避免重复做功

需要说明的是,大数据在概念上可能与传统数据没有区别。也就是说,研究人员需要保证“使用大数据可以回答新的问题,或者可以更精确地回答旧的问题”。

例如,由于统计能力的提高,在大多数情况下,前者的潜在贡献和影响要大于后者。尽管一个新的大数据源在很多方面都是独一无二的,但它可能会具有与之前研究中使用的数据非常相似的结构。在这种情况下,研究者可能就不经意间测试了一个旧问题但自己却没有意识到。

大数据不仅在结构层面上可能会与之前数据相似,它还可能遇到与传统数据相同的一些实证研究或者实验的陷阱。例如,Teoh(2018)指出,使用替代数据的研究仍然会遇到模型中的内生性问题。因此,研究人员应当仔细审查以前的文献,并清楚地向自己阐明大数据与以前使用的数据在结构层面上有什么不同,或者大数据是如何克服实证研究或者实验的一些问题。

庞大的数据,少量的主体

大数据虽然总量庞大,但当它被汇总到研究者感兴趣的单元时,最终得到样本数量往往变得非常少。例如,在 2022 年 Blankespoor 等人收集了高达 16 亿笔交易的大数据,并将其进行分类汇总,最后发现这 16 亿笔交易仅仅分布在 243 家零售公司;也就是说大数据可能量足够大,但分布不够广,这就可能会出现数据不具有推广性的问题。当样本是研究中感兴趣的群体时(例如研究医院住院率时用到的病人数量),此类样本限制就不是问题了,但是,当试图在原始样本之外进行推断时,样本限制问题就会产生。在一个理想的世界里,研究人员使用不存在样本选择问题的大数据可以避免推广性的问题。实际上,研究人员应该确定可能会使推广性受到限制的方法,并设计测试来缓解这些推广性收受到限制的问题。

噪音与结构

  • 数据质量问题。 大数据虽然数量庞大,质量却没有保证,有时候数据里边会有噪音或其他杂质,研究员要进行复杂的噪音处理才能用这些数据做研究。例如,文本、图像和视听数据都是非结构化的,需要研究者进行主观的研究分析和处理选择,数据处理成本相当大。但学术机构中研究团队通常只有三、四个人,且设备配置通常不足以处理大量的数据,这就给研究过程带来巨大的限制和瓶颈。
  • 噪音处理。 此外,噪音处理可能对研究结果产生实质性影响。并且,当研究人员完成了繁琐的噪音处理后,得到的数据仍然会受到测量误差的影响。
  • 结构相关性。 最令人难以接受的是拥有完美的测量数据,却没有得到与感兴趣结构相关性的联系。例如,考虑一个假设场景,其中一位研究人员使用谷歌趋势数据来衡量对股东大会上投票主题的看法,以预测管理层可能会提前实施的政策措施。但是,谷歌趋势是基于所有用户的搜索,而不仅仅是那些拥有某家公司股票的用户,而且很大一部分选票实际上是由代理投票人投的。因此,谷歌趋势数据可能无法很好地反映最终投票人的态度。尽管谷歌趋势数据在许多情况下都反映态度和兴趣,但它并不一定适合所有的研究问题。归根结底,无论研究人员多么仔细地清理和审查他们的数据,大数据都不是解决结构有效性问题的良方。

有趣的数据,无聊的研究问题

通过统计发现,使用大数据的论文可能只关注数据的新颖性而忽略了本身的研究问题。有时,研究人员甚至有这样一种想法,他们认为可以直接用现有的数据来测量感兴趣的研究问题。然而,在处理数据后选定研究问题的难度不亚于处理数据前,这就产生了一种趋势,撰写的论文只发展方法论,而不讨论应用或测试新的研究问题,因此研究人员在努力获取高门槛数据的同时可以多思考的是如何利用大数据或创新理念对于所研究的问题提出一些新的想法。一个有效的办法是研究人员应该尽可能地先提出研究问题,然后再寻找最佳数据。

3. 结论

综上所述,使用大数据进行基于经济学的研究时应该考虑这四点:

  • 首先,简单地利用大数据复制已有结果的研究可能缺乏对该领域知识的贡献,尤其要注意的情况是新数据与之前的数据存在相同的问题;
  • 第二,大数据可能只适用于有限的个人样本,特别是在汇总到感兴趣的单元时,样本量可能变的比较小;
  • 第三,大量的噪音杂质会使大数据的处理成本很高,并且数据清洗过程并不能保证存在感兴趣的结构关联性。
  • 第四,使用大数据的论文可能只关注数据的新颖性而忽略了研究问题,研究人员如果在产生研究问题之前对大数据进行大量投资,最终可能会得到一篇专注于验证数据而缺乏探究经济类研究问题的论文。

希望研究者都能够牢记这四个问题,这样可以避免大量低质量、高成本的科研工作,使研究者更加专注于有研究贡献潜力的问题,并节约大量资源。

4. 参考资料

Stice-Lawrence, Lorien, Practical Issues to Consider When Working with Big Data (June 2022). Review of Accounting Studies, Forthcoming, Available at SSRN -PDF-

5. 相关推文

Note:产生如下推文列表的 Stata 命令为:
lianxh 大数据 清洗
安装最新版 lianxh 命令:
ssc install lianxh, replace

相关课程

免费公开课

最新课程-直播课

专题 嘉宾 直播/回看视频
最新专题 文本分析、机器学习、效率专题、生存分析等
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
面板模型 连玉君 直击面板数据模型 [免费公开课,2小时]
  • Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。

课程主页

课程主页

关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。
  • 连享会-主页知乎专栏,700+ 推文,实证分析不再抓狂。直播间 有很多视频课程,可以随时观看。
  • 公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法

连享会小程序:扫一扫,看推文,看视频……

扫码加入连享会微信群,提问交流更方便

✏ 连享会-常见问题解答:
https://gitee.com/lianxh/Course/wikis

New! lianxh 命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh