
New! 搜推文,找资料,用
lianxh
命令:
安装:ssc install lianxh, replace
使用:lianxh 合成控制
lianxh DID + 多期, w


作者: 闫钊鹏 (吉林大学)
邮箱: ericyzp@foxmail.com
Source: Malcolm Barrett, 2021, Data science as an atomic habit. -Link-
Note: 题目也可以译作“数据科学的原子习惯”,其中“原子习惯”指的是习惯就是像原子一样,看似微不足道,但当数量足够多的时候,会形成不可小觑的力量。
几年前,我居住在纽约市的禅宗中心,这是一座专注于支持那些既修行又有工作、家庭等责任的非专业修行者的禅宗寺庙。在禅宗中心的生活本身就是一种密集的体验。你需要按照寺庙的时间表,参与早晚禅修、共同工作和用餐,以及定期参加禅修闭关,同时还需履行其他责任。然而,在这样的环境中修行禅宗却非常轻松。你无需耗费精力来促使自己进行修行,因为像 ZCNYC 这样的地方提供全方位的支持。你的日程安排清晰明了。即使你偶尔睡过头;也会有人前来叫你参加禅修大厅。你的生活系统有条不紊地支持着你的修行。
当我为了攻读博士学位搬到加利福尼亚时,我在修行上遇到了困难。我并不缺乏兴趣或动力:我通过亲身经历知道这是必要的。但是现在,没有了禅修中心的结构,我需要自己负责。在挣扎了几个月,每天都坐禅^1成了一种艰难。我决定够了,做出了一个誓言:我要每天第一件事就坐禅,这将贯穿我一生。我没有承诺要坐多少个小时或者其他任何要求。我只专注于保持一致。
在每天坚持冥想的誓言彻底改变了我的体验。为什么呢?答案对我来说几乎是立竿见影的:我脑中的争论消失了。不再有“我应该坐吗?”的疑虑,不再有“坐多久?”或“什么时候坐?”的问题。我不再担心这些,因为这是一个已解决的问题:我每天都坐禅,第一件事——无需思考。即使花更多时间进行练习对我很有价值,我并没有专注于那个方面。我专注于确保我能够每天坚持坐禅的系统。因为我的修行对我很重要,从一个始终如一的习惯中自然而然地增加了练习的时间;只要我每天都坐在坐垫上,这就足够了。
我最近阅读了 James Clear 的 《 Atomic Habits 》,我非常喜欢(这里是一个总结)。许多关于提高生产力的书籍实际上相当于一篇或两篇有用的博客文章,被 200 页花哨的营销所包装,但我发现这本书既易读又实用,并且有相关研究进行支持。当我读这本书时,我意识到:哦,我在修行中所做的就是一种原子习惯。我专注于小而持续的行动,这些行动能够自我增强。我将它们融入我的生活,以至于我不需要思考。我成为了一个每天都坐在坐垫上的人。
1. 数据科学的原子习惯
在 Clear 看来,最重要的习惯是小而持续的,它们的好处会随着时间的推移逐渐增长和累积,就像我每天坚持坐禅的承诺一样。我们容易被绊倒的地方在于这个过程的第二部分(坚持),尤其是在学习数据科学方面,这一点尤为真切。我们常常认为我们的能力应该与我们的努力成正比增长,但事实并非如此。我的学习 R 和其他数据科学工具的经验就遵循了这种非直观的路径:我对我的进展有了某种期望,但实际发生的事情与我预期的相差很大。当你学习 R
或 Python
时,例如,你可能会想知道为什么即使你每天都在编写代码或学习,你仍然感觉掌握不了这门语言。 Clear 使用了一张图来展示这一点,但由于这是一篇数据科学的文章,我们不妨使用 R
来画一下:
# 加载ggplot2库
library(ggplot2)
# 创建一个包含内心思想的数据框
inner_thoughts <- tibble::tribble(
~x, ~y, ~label,
0, 800, "Cool!", # 学习开始,感觉很酷
0.9, 800, "...?", # 有一点迷惑
1.8, 1400, "object... of\ntype... closure?", # 开始遇到更复杂的概念
3.9, 900, "Ugghhhh", # 遇到难以理解的问题,感到沮丧
5.3, 1200, "Ugghhhhhh", # 持续感到困扰
6.7, 2500, "Oh wait", # 突然明白了一些事情
7.7, 4000, "...!!", # 颇有成就感
8.5, 8000, "!!!!!", # 获得更多的理解
7.9, 20000, "Oh sure, it's easy" # 最终感觉这很容易
)
# 使用ggplot创建图表
ggplot() +
geom_function(fun = exp, linewidth = 1.2, color = "firebrick") +
geom_text(data = inner_thoughts, aes(x, y, label = label), hjust = 0) + # 添加文本标签
xlim(0, 10) + # 设置x轴范围
ggtitle("Mastering a programming language") + # 添加标题
theme_void(24) # 设置主题

这是坚定而安静的修行之路:我们的能力滞后于我们的努力。在“Ugghhhh”阶段,我们内在的动力开始消解。当然,你可以制作图表或其他什么,但你仍然整天在与错误搏斗。在这一点上,你有什么可以展示的呢?你可能会觉得,与开始时相比,并没有太多的进展。但我们的成长很少是线性的:通常情况下,它是爆炸性的,至少在关键时刻是这样[^2]。我们突然开始建立联系,这有助于我们建立其他关系,依此类推。成长从来不是无限的(坏消息是:即使你设法每天都进步,最终你还是会死亡),但它也很少与我们即时的努力直接相关,就像我们期望的那样。
2. 实践与成长是一体的行动
在培养有意义的习惯,比如学习数据科学时,问题的一部分在于我们将焦点放在结果上,好像我们(不)是一位数据科学家与我们的代码出现了多少错误是相等的。但这并不完全正确。例如,如果你正在学习跑步,你并不是要成为一个跑步 30 分钟的人。你正在成为一名跑步者。这种转变更为深刻,更具挑战性,也更为丰富。跑步 30 分钟只是与这种转变互动的一种有用策略。当你坐下来编写代码和处理数据时,你并不是在成为一个能够无误输入 R 代码的人[^3],你正在成为一名数据科学家。成为 ( Becoming ) ——即成长 ( birth ) ——是一个缓慢、有时痛苦但最终令人惊叹的过程。在禅宗中,我们说:“不要在自己头上再放一个头”[^4],不要将结果与实际发生的事情混淆。
Hadley Wickham 的这张 GIF 图 是其中比较出色的一张,他在这张 GIF 图中警告 R
学习者,你们的 R
学习会有一段时间很糟糕:
完整的引文是:
无论何时学习一个新工具,有很长一段时间你都会感觉很差劲... 但好消息是这很正常;每个人都会经历这个阶段,而且它只是暂时的。
我一直喜欢这个说法,因为你应该为自己一段时间内不是一位高手程序员做好准备;这是过程的固有部分,而且大部分是不可避免的。然而,我也认为认识到你的学习和努力并没有白费是很好的。成为一名数据科学家只是滞后于我们投入实践数据科学的努力之后。实践和成长是一个过程,一种行动,但我们经常看不到它们是如何相互联系的。在我们努力的表面下发生的事情是悄无声息的——直到它以狂风暴雨的形式出现。
3. 一步一个脚印
选择一些小而容易在最繁忙的日子里腾出时间的事情,并明确你何时会去做。这最后一点非常重要:如果你没有设定一个固定的时间来养成习惯,你可能不知道你错过了它(直到一天结束时,也许已经太晚了)。一个有用的策略是将新习惯叠加在已有的习惯上。你每天早上已经喝一杯咖啡了吗?与那个习惯结合明确的承诺:“我每天在做完咖啡后会 ___。” 你叠加的习惯可以是任何事情,只要它是你每天都在做的。
那么,成为一名数据科学家的原子习惯会是什么样的呢?以下是一些建议:
- 打开 RStudio,在控制台中输入
“Good morning, R”
。就是这样。认真点.- 写 5 分钟代码
- 使用一个新函数,阅读帮助页面也算。
- 在
Git
上提交一次。
把这些习惯叠加起来可能会是这样的: "每天早上煮完咖啡后,我会写五分钟的代码"。
这些微小的习惯之所以有用,是因为你总是可以抽出时间来完成它们,但当你有一种意识,知道之后可能会做什么时,它们的效果最好。以前我跑步时(在一次腿筋受伤之前),我会按照一个跑步计划进行,但当我很难从沙发上站起来时(这经常发生,特别是在冬天),我会对自己说:“你只需要穿上跑鞋,走到门廊上,然后你就可以结束了。”通常,这已经足够让我参与到我最初计划的活动中。如果你的计划涉及到一些有趣或紧急的事情,这也是很有帮助的,可以保持你的动力。在数据科学的世界里,幸运的是,有足够多的有趣和紧急的事情。在你还没有进入"!!!"阶段时,专注于能让你保持动力的高强度活动。许多数据科学家会从数据可视化和项目工作流程工具入手,而软件工程师可能会从语言基础或同时使用多种语言入手[^5]。
换句话说,你正在培养的习惯是坚持行动。行动驱动动力。当你等待动力来推动行动时,你最终会发现自己一直在等待。
4. 追踪
跟踪习惯对确保你坚持下去是有帮助的。GitHub
的一个好处是它以热图的形式显示你的提交历史;如果你提交了,它是绿色的,如果没有,它是灰色的。如果你的习惯是每天进行一次提交,那就不要留下任何灰色的方块。

GitHub
的热图与一种流行的效率技巧非常相似:The Seinfeld Chain。Jerry Seinfeld 承诺每天写一个笑话。他有一个大的日历,每次写完他都会用红色记号划掉一天。你会建立起一条由红色 X 组成的链条。引用 Jerry 的一句话:“不要打破这个链条。”
有许多手机应用程序适合跟踪习惯。我使用 HabitHub。以前我会在我的格子式 Moleskine 笔记本中手工画出 365 个方块,然后手动划掉它们。
目前,我在 HabitHub 上跟踪五个习惯。我慢慢地添加它们,一次专注一个,直到它们感觉很稳定,然后再添加另一个。随着时间的推移,我还对它们进行了修改,以适应我对这种支持的需求的变化。一些习惯变得如此自动化,以至于我不再需要跟踪它们,而另一些则受益于创建一个新的、与之紧密相关的习惯,以叠加在已经稳定的习惯上。
5. 相信自己
你需要培养的是对过程的坚持和耐心。我们常常把耐心与毅力混为一谈。然而,耐心并不仅仅是忍耐,而是一种信任。一种对自己的信任。这个想法有其独到之处,因为,虽然保持专注大有裨益,但往往难以持久。终有一天,你会感到疲惫、厌倦。相反,将你的精力投入到最有益的地方:坚持并相信自己。
每天都坚持到键盘前;每天都做出承诺;周而复始。在此过程中,学着认可自己的进步。你会亲眼见证自己,知道你是一个能够实现自己目标的人。你的进步和成效,在开始时可能很微小,也很简单,但日积月累,你会发现它们正在汇溪成河。
6. 相关推文
Note:产生如下推文列表的 Stata 命令为:
lianxh 数据科学 习惯 数据分析 规范
安装最新版lianxh
命令:
ssc install lianxh, replace
- 专题:论文写作
- 刘欣妍, 2021, 导师忠言:养成良好的实证研究习惯, 连享会 No.662.
- 专题:公开课
- 周璐, 2020, 哈佛免费公开课介绍——大数据分析经济与社会问题, 连享会 No.417.
- 专题:数据处理
- 连享会, 2020, 数据分析修炼历程:你在哪一站?, 连享会 No.425.
- 专题:论文重现
- 马雨驰, 2023, 如何整理一份规范的论文复现文档?, 连享会 No.1180.
[^2]: 我在这里描绘它为指数增长,参考了 Clear 的图表,但那几乎肯定也不准确。根据我的经验,它更像是一个波动的逻辑曲线!
[^3]: 更多的好消息/坏消息:你永远都不会停止写有错误的代码。你最好现在就与之交朋友!
[^4]: 这是一种比喻,传达的含义是不要给自己制造额外的心理负担或混淆。禅宗教导弟子要避免对事物过度思考,不要让自己的头脑过分繁杂,要保持心境的纯净和清晰。
[^5]: 从哪里开始学习一门语言取决于你的目标和背景。许多 R
和 python
的老师都会从对象类型和控制流等内容开始。这些都是语言基础知识,你最终可能需要了解它们。但如果你学习的是数据科学,你最好从数据科学基础开始:读取数据、可视化数据、操作数据等等。当然,这并没有一个正确的顺序。也许你有计算机科学背景,从控制流开始听起来比较舒服!

[(https://www.lianxh.cn/details/1543.html)
资源共享
- 连享会资料 ……
- 在线视频:lianxh-class.cn
- Stata 33 讲,100 万+ 播放,Stata 入门必备,公开课
- 直击面板数据模型,10 万+ 播放,白话面板模型,公开课
- … more …
- 论文复现和数据
- 主题分类
- 热门推文

尊敬的老师 / 亲爱的同学们:
连享会致力于不断优化和丰富课程内容,以确保每位学员都能获得最有价值的学习体验。为了更精准地满足您的学习需求,我们诚挚地邀请您参与到我们的课程规划中来。
请您在下面的问卷中,分享您 感兴趣的学习主题或您希望深入了解的知识领域 。您的每一条建议都是我们宝贵的资源,将直接影响到我们课程的改进和创新。
我们期待您的反馈,因为您的参与和支持是我们不断前进的动力。感谢您抽出宝贵时间,与我们共同塑造更加精彩的学习旅程!https://www.wjx.cn/vm/YgPfdsJ.aspx# 再次感谢大家宝贵的意见!

关于我们
- Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。more……
- 扫码加入连享会微信群,提问交流更方便
