
New! 搜推文,找资料,用
lianxh
命令:
安装:ssc install lianxh, replace
使用:lianxh 合成控制
lianxh DID + 多期, w


作者: 黄晨晨(厦门大学)
邮箱: huangcc@stu.xmu.edu.cn
Source: Horrace, W. C., Jung, H., & Lee, Y. (2022). LASSO for Stochastic Frontier Models with Many Efficient Firms. Journal of Business & Economic Statistics, 41(4), 1132–1142. Link, PDF, Google.
1. LASSO-SFA 简介
在面板数据中,随机前沿 (SF) 模型通常通过估计公司固定效应来评估公司层面的效率,并对其进行排名以确定样本中最高效的一家公司。也就是说,SF 估计量通常不能识别出效率并列的情况,而实际上,在竞争市场中可能存在多个在效率上相当的公司。
现有研究中已经提出了一些识别多个高效公司的方法,但是这些方法依赖于强分布假设并且使用两步法进行估计。两步法是指,第一步先估计公司层面的效率,第二步采用单独的推断方法或者选择准则来确定一组最高效公司中的成员资格。
这篇文章开发了一个一步估计的半参数程序,使用自适应 LASSO 来识别企业的效率,LASSO-SFA 适合分析许多公司可能处于效率前沿的大型竞争市场,在没有太多公司效率接近 0 的情况下也适用于短面板。
2. 最小二乘虚拟变量估计法 (LSDV)
考虑以下具有时不变技术无效率的面板随机前沿模型:
其中, 表示第 家企业在第 t 期的产出的对数。 为常数项, 为 的投入向量, 是边际效应对应的参数向量。回归方程有两个误差项,第一个误差项 是一个双边噪声,满足 。第二个误差项 表示时不变的企业无效率项。与标准的固定效应面板回归模型不同,本模型没有对无效率项 施加任何分布假设。
现有研究多数使用 LSDV 估计上述方程:
其中, 为企业固定效应。在 LSDV 方法中,前沿参数 估计方法为:
当 时,与 是一致的。此时,个体企业的无效率项 被一致地估计为:
其中, 表示样本中的最大效率, 可看作是相对于效率最高的企业而言的低效率。因此,除了样本中效率最高的企业之外,所有公司的 都是严格为正的,在 LSDV 的框架下,即使样本中存在多个有效的企业 (即,),也只能识别出一个企业。这也是 LSDV 方法的局限性。
3. 自适应 LASSO 估计法
为了克服 LSDV 方法的局限性,Horrace 等人提出用自适应 LASSO 方法来估计上述方程。
3.1 优化算法
由于 LASSO 目标函数中的 L1 惩罚项在原点处没有二阶导数,因此,不能直接应用 Newton-Raphson 等标准二次优化算法。他们推导了一个有效的坐标下降算法,该算法考虑了模型中的符号限制,使用了来自初始 LSDV 估计的初步无效率排序信息,使得可以跳过大量无关的优化步骤。
基于以下两个方程:
这种坐标下降算法同时利用了目标函数的凹凸性和初步的无效率排序,使我们能够快速找到目标函数的最小值。
3.2 调优参数的选择
自适应 LASSO 估计量的性能取决于调优参数 的选择。基于交叉验证和 AIC 标准的方法会导致过度选择,这将导致在我们的背景下有效企业的选择不足。Wang et al. (2007) 提出了基于 BIC-type 准则的参数调整选择,当模型存在时,可以一致地估计正确的模型。
考虑以下基于 BIC-type 准则对 的选择:
其中,随着 或 递增, 并且
4. 实例分析:纽约锡拉丘兹市警车搜索效率
Horrace 等人以纽约锡拉丘兹市警车搜索效率为例验证 LASSO-SFA 的效能。根据纽约锡拉丘兹市警方在一年中进行车辆搜查的成功程度,选择一组最佳警官进行年度评估。
4.1 数据
使用 2006 年在纽约州锡拉丘兹市的警方车辆搜查活动的非平衡高频面板数据。剔除全年车辆搜查次数少于 5 次的警察,剔除在人口普查区进行的观测少于 5 次的停留。最终样本包括 139 名警察和 2863 次搜索。
4.2 模型
构建线性概率模型如下:
4.3 变量
变量 控制警察的经验水平,用入职日期作为代理变量。为了捕捉经验和逮捕率之间可能存在的非线性关系,在 中包含了一个三阶多项式。
变量 中控制了以下变量:
- 驾车者是否为 25 岁以下的青年
- 警察停止活动的分散程度
- 警察执行职务的强度
- 人口分区的虚拟变量 三次轮班的虚拟变量 (7 a.m.–3 p.m.; 3 p.m.–11 p.m. ; 11 p.m.–7 a.m)
- 季节虚拟变量
4.4 结果
年轻司机的系数为负意味着年轻司机的被捕率平均低于年长司机,警察对年轻司机的搜查没有成功 (即没有逮捕) 比年长司机更频繁。

被捕率随着警察就业年限的增加而提高,直到第 10 年左右,然后下降。意味着警务学习不是一个持续的积累,而是在一段时间后的退化。

使用 LASSO-SFA 估计警察搜索效率,结果表明 32.4% 的警察是高效的 (139 名警察中的 45 名) 。下图对比了效率估计的结果, 浅灰色的直方图代表了传统 LSDV 方法的无效率分布,深色的直方图代表了来自 LASSO 的无效率分布。传统 LSDV 的无效率分布看起来像一个双峰分布,在 0.2 和 0.6 左右有两个峰。在应用 LASSO 后,无效率的密度函数变得类似于半正态分布或指数分布。

4.5 Matlab 代码实现
由于数据的保密性,未能获得复现数据。不过,Hyunseok Jung 及其合作者们为我们提供了 Matlab 语言书写的复现代码,并提供了注释帮助大家理解代码含义,点击此处下载。
6. 相关推文
Note:产生如下推文列表的 Stata 命令为:
lianxh 效率 SFA 随机边界 Lasso
lianxh LASSO
安装最新版lianxh
命令:
ssc install lianxh, replace
- 专题:内生性-因果推断
- 伍慧铭, 2023, Stata:内生性随机边界模型-xtsfkk, 连享会 No.1192.
- 专题:回归分析
- 王瀚洋, 2020, Stata:拉索回归和岭回归-(Ridge,-Lasso)-简介, 连享会 No.434.
- 专题:Python-R-Matlab
- 吴小齐, 2023, R语言:L2 Boosting 在经济学中的应用, 连享会 No.1288.
- 专题:IV-GMM
- 徐云娇, 2021, Lasso一下:再多的控制变量和工具变量我也不怕-T217, 连享会 No.635.
- 陈云菲, 2022, Stata:IV-Lasso经典论文介绍, 连享会 No.1072.
- 专题:Stata命令
- 连享会, 2020, Stata新命令-pdslasso:众多控制变量和工具变量如何挑选?, 连享会 No.330.
- 郭盼亭, 2023, Stata:基于Lasso的合成控制法-scul, 连享会 No.1167.
- 专题:专题课程
- 连享会, 2023, 连享会-2024寒假班, 连享会 No.1292.
- 连享会, 2022, 连享会2022效率分析诚聘助教-欢迎优秀的你加入连享会团队, 连享会 No.946.
- 连享会, 2021, 连享会:助教入选通知-效率分析进阶课程, 连享会 No.757.
- 连享会, 2021, 连享会:效率分析-前沿模型, 连享会 No.734.
- 专题:机器学习
- Drukker, 刘迪, 2020, Stata Blogs - An introduction to the lasso in Stata (拉索回归简介), 连享会 No.117.
- 杨继超, 2021, Lasso:拉索中如何做统计推断, 连享会 No.525.
- 杨继超, 2020, Stata:拉索开心读懂-Lasso入门, 连享会 No.169.
- 连玉君, 2022, 图解Lasso系列A:Lasso的变量筛选能力, 连享会 No.849.
- 专题:SFA-DEA-效率分析
- 彭甲超, 2021, Stata效率分析:Simar-Wilson两阶段半参数DEA-T303, 连享会 No.703.
- 专题:公开课
- 连享会, 2021, 公开课:高质量发展评估 - 基于效率和生产率视角, 连享会 No.320.

资源共享
- 连享会资料 ……
- 在线视频:lianxh-class.cn
- Stata 33 讲,100 万+ 播放,Stata 入门必备,公开课
- 直击面板数据模型,10 万+ 播放,白话面板模型,公开课
- … more …
- 论文复现和数据
- 主题分类
- 热门推文

尊敬的老师 / 亲爱的同学们:
连享会致力于不断优化和丰富课程内容,以确保每位学员都能获得最有价值的学习体验。为了更精准地满足您的学习需求,我们诚挚地邀请您参与到我们的课程规划中来。
请您在下面的问卷中,分享您 感兴趣的学习主题或您希望深入了解的知识领域 。您的每一条建议都是我们宝贵的资源,将直接影响到我们课程的改进和创新。
我们期待您的反馈,因为您的参与和支持是我们不断前进的动力。感谢您抽出宝贵时间,与我们共同塑造更加精彩的学习旅程!https://www.wjx.cn/vm/YgPfdsJ.aspx# 再次感谢大家宝贵的意见!

关于我们
- Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。more……
- 扫码加入连享会微信群,提问交流更方便
