Stata连享会 主页 || 视频 || 推文 || 知乎 || Bilibili 站
温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。
New!
lianxh
命令发布了:
随时搜索推文、Stata 资源。安装:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
连享会新命令:cnssc
,ihelp
,rdbalance
,gitee
,installpkg
⛳ Stata 系列推文:
目录
作者: 袁瑜彤 (西北大学)
邮箱: 794016076@qq.com
什么是大数据
在当今这个互联网高速发展和信息爆炸式增长的时代,人们可能对“大数据”不再陌生,“大数据”指的是比传统的机器可读数据源更大、更复杂的数据,它更加关注相关性,即人与人之间、人与事物之间、事务与事务之间的关系。
大数据源
“大数据”是一个总括性术语,包括许多不同类型的数据。会计和金融研究中最早使用的大数据来源之一是文本内容,文本数据可能很大,而且本质上是非结构化的,在用于统计分析之前需要额外的处理。同样的,图像,如高管的脸或他们的签名,以及视听内容,如电话会议或路演,需要专门的处理技术。更广泛地说,IoT(物联网)设备,如家庭、医疗、制造、零售和运输环境中的智能和连接设备,会产生大量的数据,可以用来数据分析。然而大数据虽新颖便利,但其并非解决使用更多传统数据源时面临的问题的“万能药”。
在使用大数据时,由于没有对研究项目的规划与选择做出正确分析而盲目地使用大数据,会导致项目无法克服以下提到的问题而最终被放弃。因此,研究人员在使用某个特定的大数据源之前应该考虑的以下四个实际问题:
避免重复做功
需要说明的是,大数据在概念上可能与传统数据没有区别。也就是说,研究人员需要保证“使用大数据可以回答新的问题,或者可以更精确地回答旧的问题”。
例如,由于统计能力的提高,在大多数情况下,前者的潜在贡献和影响要大于后者。尽管一个新的大数据源在很多方面都是独一无二的,但它可能会具有与之前研究中使用的数据非常相似的结构。在这种情况下,研究者可能就不经意间测试了一个旧问题但自己却没有意识到。
大数据不仅在结构层面上可能会与之前数据相似,它还可能遇到与传统数据相同的一些实证研究或者实验的陷阱。例如,Teoh(2018)指出,使用替代数据的研究仍然会遇到模型中的内生性问题。因此,研究人员应当仔细审查以前的文献,并清楚地向自己阐明大数据与以前使用的数据在结构层面上有什么不同,或者大数据是如何克服实证研究或者实验的一些问题。
庞大的数据,少量的主体
大数据虽然总量庞大,但当它被汇总到研究者感兴趣的单元时,最终得到样本数量往往变得非常少。例如,在 2022 年 Blankespoor 等人收集了高达 16 亿笔交易的大数据,并将其进行分类汇总,最后发现这 16 亿笔交易仅仅分布在 243 家零售公司;也就是说大数据可能量足够大,但分布不够广,这就可能会出现数据不具有推广性的问题。当样本是研究中感兴趣的群体时(例如研究医院住院率时用到的病人数量),此类样本限制就不是问题了,但是,当试图在原始样本之外进行推断时,样本限制问题就会产生。在一个理想的世界里,研究人员使用不存在样本选择问题的大数据可以避免推广性的问题。实际上,研究人员应该确定可能会使推广性受到限制的方法,并设计测试来缓解这些推广性收受到限制的问题。
噪音与结构
有趣的数据,无聊的研究问题
通过统计发现,使用大数据的论文可能只关注数据的新颖性而忽略了本身的研究问题。有时,研究人员甚至有这样一种想法,他们认为可以直接用现有的数据来测量感兴趣的研究问题。然而,在处理数据后选定研究问题的难度不亚于处理数据前,这就产生了一种趋势,撰写的论文只发展方法论,而不讨论应用或测试新的研究问题,因此研究人员在努力获取高门槛数据的同时可以多思考的是如何利用大数据或创新理念对于所研究的问题提出一些新的想法。一个有效的办法是研究人员应该尽可能地先提出研究问题,然后再寻找最佳数据。
综上所述,使用大数据进行基于经济学的研究时应该考虑这四点:
希望研究者都能够牢记这四个问题,这样可以避免大量低质量、高成本的科研工作,使研究者更加专注于有研究贡献潜力的问题,并节约大量资源。
Stice-Lawrence, Lorien, Practical Issues to Consider When Working with Big Data (June 2022). Review of Accounting Studies, Forthcoming, Available at SSRN -PDF-
Note:产生如下推文列表的 Stata 命令为:
lianxh 大数据 清洗
安装最新版lianxh
命令:
ssc install lianxh, replace
免费公开课
最新课程-直播课
专题 | 嘉宾 | 直播/回看视频 |
---|---|---|
⭐ 最新专题 | 文本分析、机器学习、效率专题、生存分析等 | |
研究设计 | 连玉君 | 我的特斯拉-实证研究设计,-幻灯片- |
面板模型 | 连玉君 | 动态面板模型,-幻灯片- |
面板模型 | 连玉君 | 直击面板数据模型 [免费公开课,2小时] |
⛳ 课程主页
⛳ 课程主页
关于我们
课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法
等
连享会小程序:扫一扫,看推文,看视频……
扫码加入连享会微信群,提问交流更方便
✏ 连享会-常见问题解答:
✨ https://gitee.com/lianxh/Course/wikis
New!
lianxh
命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh