Stata-DEA:数据包络分析一文读懂

发布时间:2020-12-28 阅读 46135

Stata连享会   主页 || 视频 || 推文 || 知乎 || Bilibili 站

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

New! lianxh 命令发布了:
随时搜索推文、Stata 资源。安装:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
连享会新命令:cnssc, ihelp, rdbalance, gitee, installpkg

课程详情 https://gitee.com/lianxh/Course

课程主页 https://gitee.com/lianxh/Course

⛳ Stata 系列推文:

PDF下载 - 推文合集

作者: 谢雁翔 (南开大学)
邮箱: xyxmask1995@163.com

编者按: 本文部分参考如下内容,同时也特别感谢杜克锐教授和王道平博士对于部分命令的答疑。

Source:


目录


1. 引言

数据包络分析 (DEA) 是一种数据驱动的非参数效率测度方法,并由美国著名运筹学家 A.Charnes、W.W.Cooper、E.Rhodes (1978) 首先提出。由于其不预设定具体函数形式和允许多种投入产出的优点,现已被学者们广泛用于评估决策单元的投入产出效率。

DEA 的基础是构建生产技术,在此基础上,基于生产单元到生产前沿的距离来估算效率。按照距离函数的不同,效率可分为径向效率和非径向效率。

Fare 等 (1994) 首先将 DEA 方法引入了 Malmquist-TFP 测算中。Chung 等 (1997) 提出方向距离函数 (DDF),并在此基础上开发了 Malmquist-Luenberger 生产率指数,用来解决包含污染排放作为非期望产出情况下的全要素生产率测度问题。此后,考虑到松弛变量及非期望产出的影响,日本学者刀根熏(Tone)在 2001 年提出了 SBM-DEA (Slacks-Based Measure) 模型。

现有的 DEA 及其复杂拓展模型主要通过 Maxdea (价格高昂5000+) 完成,其他软件诸如 DEA-SOLVER、Mydea、以及 DEAP 均提供较为简单的测度模型。当然,我们也可以通过 Stata 实现!

对比现有 DEA 命令,dea 过于简单,本文将介绍效率测算的统计推断系列命令 teradialtenonradialteradialbcnptestindnptestrts。同时,由于上述命令仅能处理截面数据的静态效率计算,且不能考虑非期望产出,本文将进一步介绍由厦大杜克锐老师编写的用于测算静态径向/非径向技术效率的命令 teddfsbmddfddfeffnddfeff、以及用于测算全要素生产率的命令 gtfpchmalmq2

2. DEA模型简介

2.1 技术效率的概念

在 DEA 分析中,技术效率是指一个生产单元 (DMU) 的生产水平达到该组数据最优技术水平的程度。技术效率可以从投入 (Debreu) 和产出 (Farrel) 两个角度来衡量,在投入既定的情况下,技术效率由产出最大化的程度来衡量。在产出既定的情况下,技术效率由投入最小化的程度来衡量。当然,在计算 TFP 的过程中,一般选择投入既定。

下面是一个单一投入产出的例子,来帮助理解技术效率的概念。

单位 x (投入) y (产出) y/x y/x (标准化)
A 2 1 0.5 0.625
B 3 2 0.667 0.553
C 4 3 0.75 0.938
D 5 4 0.8 1.000
E 5 2 0.4 0.500

上表中,y/x 反应为各个生产单元技术效率的高低,y/x (标准化) 是将各单元的 y/x 除以其中的最大值,从而更好的比较这一数值。当涉及多个投入产出时,就会对各个投入与产出赋予一定的权重,然后分别加权,计算产出投入比,具体如下所示:

由上式可知,产出投入比为 u/v。DEA 的数据驱动特征即通过数据本身获得权重,从而计算各个 DMU 的技术效率。由于 DEA 的数据驱动特征,要求投入产出数据不能存在缺失值。

2.2 径向距离模型

径向效率的度量命令 teradial 采用的是 Debreu–Farrell (Debreu,1951;Farrell,1957) 方法。具体如下:

  • 假设有 k 个 DMU,对于 DMUK,有 N 种投入,记为 xk=(xk1,,xkN)RN,有 M 种产出,记为 yk=(xk1,,xkM)RM
  • 然后,我们假设在技术条件 T 下,投入 x 产出为 y,数学表达为:T={(x,y):y are producible by x}
  • 那么在技术条件 T 下,生产可能集表示为: P(x)={y:(x,y)T}。投入的需求集表示为:P(y)={x:(x,y)T}

以生产可能集为例,技术效率就表示为,某个给定数据点与生产可能集边界的距离。若以 DEA 模型来测量此种技术效率,则对于 k 个 DMU ,每个 DMU 有 N 种投入,M 种产出的数据集来说,Debreu–Farrell (Debreu,1951;Farrell,1957) 的以产出为导向的估计方法,可以通过下述线性规的方程式来表示:

其中,y 是一个 K×M 的产出矩阵,x 是一个 K×N 的投入矩阵。估计 P(x) 是最小的包围面 (smallest convex free-disposal hull)。上述线性规划求解的是规模报酬不变 (CRS) 的技术效率。在其他关于规模报酬的假设下,只需改变 zk 的约束,例如规模报酬可变 (VRS),设置 k=1Kzk=1 即可。

命令 teddfddfeff 考虑了非期望产出,假设有 j=1,...,N 个决策单元 (DMU),并且假设每个 DMU 使用投入向量 xR+M 来联合生产期望产出向量 yR+S 和非期望产出向量 bR+J,则多产出的生产技术可以表示为:

根据 Chung 等 (1997) 的研究,在生产理论中,生产可能性集是一个有界集和闭集,且投入和期望产出具有强处置性。此外,为了让 T(x) 表示环境技术,我们还需要增加弱可处置性(Weak disposability)和零结合假设(Nulljonitness)这两个额外的公理:

Chung 等 (1997) 首次将 DDF 应用于测度包含污染产出的情况,即用方向性产出距离函数来评估瑞典纸浆厂的绩效。在这里基本的方向性距离函数被定义为,寻求极大限度地增加期望产出,同时减少投入和非期望产出,即:

其中 g=(gx,gy,gb) 为投入和产出应缩放的方向向量,β 表示为无效率。根据研究的目的 (例如政策目标),DDF 可使用不同大小的方向向量。结合之前的等式,我们就可以通过求解以下 DEA 模型计算出 D(x,y,b;g) 的值,并且来测度每个 DMU 的环境无效率值。

2.3 非径向距离模型

命令 tenonradial 的非径向效率测量方法是 Russell (Färe 和 Lovell,1978;Färe 等,1994a) 法。对于以产出为导向的非径向量度定义为:

其线性规划方程式定义为:

命令 nptestrts 规模收益的两个假设检验,首先是:

如果假设 H0 被拒绝,则可以进行下述假设检验:

也是就是说先查看此技术条件下是否是规模报酬不变的,若不是再看是否是 NIRS (NonDecreasing Returns to scale) 的。

命令 teddfnddfeff 考虑了非期望产出,Zhou 等 (2012) 首先对考虑了非期望产出的 NDDF 给出了如下的正式定义:

其中,w=(wmx,wsy,wjb)T 为与投入和产出相关的标准化权重向量,g=(gx,gy,gb) 为方向向量,β=(βmx,βsy,βjb)T0 为尺度因子向量。结合环境生产技术以及 NDDF 的定义,我们可以通过求解下面的 DEA 模型来计算 ND(x,y,b;g) 的值。

2.4 SBM 模型

SBM (Slacks-Based Measure) 效率测量方法是 DEA 效率测量方法中的非径向效率测度,其优点在于,直接度量多余的投入量与不足的产出量,投入与产出到生产前沿面的距离被称作松弛量 (Slacks),来测算效率。具体原理如下:

  • 假定 n 个决策单元 (DMU),且每个决策单元有 3个向量,投人向量、期望产出向量和非期望产出向量,分别表示为 xRmygRS1ybRS2
  • 定义矩阵为 XYgYb 分别为 X=(xi,j)Rm×nYg=(yijg)RS1×nYb=(yijb)RS2×n。根据实际投入产出,假设 X>0、 Yg>0Yb>0 生产可能性集合为 P,即 N 种要素投入 X 所产生的期望和非期望产出的所有组合,可以定义为:

根据定义,加人非期望产出的 SBM-Undesirable,模型如下:

式中 SiSrgSrb 分别为第 i0 个决策单元 DMU 的表示投入冗余量、正产出不足量及副产出超标量,SSgSb 为其对应的向量,λ 为权重向量,ρ 为目标函数且是严格递减的,且 0ρ1

  • 当 ρ=1 时,即 S=0Sg=0Sb=0 时,决策单元才是有效率的;
  • 当 ρ<1 时,即 SSgSb 三者中至少有一个不等于零时,决策单元是无效率的,存在着投人产出上改进的必要性。同时,由于该模型是一个非线性规划模型,可以根据 Charnes-Cooper 的转换方法将其转换成线性规划模型进行求解。

2.5 Malmquist 指数分解

Lovell 将构成 CRS 生产可能集的前沿技术称为基准技术,即为了计算 TFP 而定义的参照技术,并将构成 VRS 生产可能集的前沿技术称为最佳实践技术,即现实中存在的前沿技术。Malmquist 生产率指数应当定义在基准技术之上,基于 t 和 t+1 期参照技术的 Malmquist 生产率指数分别为:

因为基于 t 和 t+1 期参照技术定义的 Malmquist 生产率指数在经济含义上是对称的,按照 Fisher (1922) 理想指数思想,定义它们的几何平均为综合生产率指数:

对于 Malmquist 生产率指数本身,FGNZ 与 RD 之间并没有分歧,分歧在于对指数的分解上。FGNZ 的分解为: