什么是双重差分模型

魔法扫帚2023-04-27  28

双重差分模型(difference-in-difference,DID)近年来多用于计量经济学中对于公共政策或项目实施效果 的定量评估。

通常大范围的公共政策有别于普通科研性研究,难以保证对于政策实施组和对照组在样本分配上的完全随机。非随机分配政策实施组和对照组的试验称为自然试验(naturaltrial),此类试验存在较显著的特点,即不同组间样本在政策实施前可能存在事前差异,仅通过单一前后对比或横向对比的分析方法会忽略这种差异,继而导致对政策实施效果的有偏估计。

DID模型正是基于自然试验得到的数据,通过建模来有效控制研究对象间的事前差异,将政策影响的真正结果有效分离出来。

举例:

现在要修一条铁路,铁路是条线,所以必然会有穿过的城市和没有被穿过的城市。记Di=1 如果城市i被穿过,Di=0 如果城市i没有被穿过。

现在我们比较好奇铁路修好以后,被铁路穿过的城市是不是经济增长更快了?我们该怎么做呢?

一开始的想法是,我们把Di=1的城市的GDP加总,减去Di=0的城市的GDP加总,然后两者一减,即E(Yi|Di=1)-E(Yi|Di=0),这样我们就算出了两类城市的GDP的平均之差。

这样做不用说肯定有问题。万一被铁路穿过的城市在建铁路之前GDP就高呢?为了解决这个问题,我们需要观察到至少两期,第一期是建铁路之前,第二期是建铁路之后。我们先把两类城市的GDP做两期之差,即:

这是第一次差分,经过这一步,我们实际上算出了每个城市GDP的增长(率,如果取log之后),也就是GDP的趋势。

完了之后,计算:

这是第二次差分。这一步就把两类城市在修建铁路之前和之后的GDP增长率的差异给算出来了,这就是我们要的处理效应,即修建铁路之后对城市经济的促进作用。

这个东西你还可以换一个写法。记T=1 如果时间为建铁路之后,T=0如果时间为建铁路之前,那么我们可以得到一个表:

Treated代表在某一期,某一类城市是不是建了铁路。第零期肯定没有建铁路,第一期只有Di=1的城市建了铁路。所以Treated=DiT。因此我们把方程写成:

对时间差分,得到:

再次差分,取期望:

可见,gamma就是我们想要估计的处理效应。

所以实际做的时候,可以直接跑

这个式子的回归,得到的交叉项的系数就是所要估计的处理效应。

用一个图表示就是:

所以看清楚了,这里DID最关键的假设是common trend,也就是两个组别在不处理的情况下,y的趋势是一样的。

那么你会说了,铁路穿过的城市可能本身GDP也高,而GDP高的城市按照理论GDP增长率可能更高可能更低,所以common trend的假设可能是不对的,那怎么办?

如果这个问题存在,我们可以进一步假设在控制了某些外生变量之后,common trend是对的,比如上个问题,我们可以控制城市在t=0期的GDP level。当我们控制其他变量之后,自然不能直接减两次了,我们需要用上面说的回归式子,即run the following OLS:

1、双重差分模型(difference-in-difference,DID)近年来多用于计量经济学中对于公共政策或项目实施效果 的定量评估。

2、通常大范围的公共政策有别于普通科研性研究,难以保证对于政策实施组和对照组在样本分配上的完全随机。

3、非随机分配政策实施组和对照组的试验称为自然试验(naturaltrial),此类试验存在较显著的特点,即不同组间样本在政策实施前可能存在事前差异,仅通过单一前后对比或横向对比的分析方法会忽略这种差异,继而导致对政策实施效果的有偏估计。

4、DID模型正是基于自然试验得到的数据,通过建模来有效控制研究对象间的事前差异,将政策影响的真正结果有效分离出来。

双重差分法可以用于统计学论文,但具体是否使用取决于论文的内容。双重差分法是一种有效的统计分析方法,可以用来检验两个不同时间段之间的差异,以及两个不同群体之间的差异。例如,在一项研究中,可以使用双重差分法来比较在不同时间段内,不同群体的社会收入水平的变化情况。双重差分法也可以用于比较两个不同群体在不同时间段内的社会收入水平变化情况。因此,双重差分法可以有效地用于统计学论文中,但是具体是否使用取决于论文的内容。

工具变量法

我今天要给大家讲的方法,是现在在微观实证研究领域最为流行的两种方法,一种叫工具变量法,一种叫做双重差分方法。这些因果识别的方法都有一个共同的特征,就是我们要找一个外生的东西(冲击),进而建立因果链条。除上述两种方法外,断点估计(RDD)也很流行,但是它的应用场景对数据,对研究的制度背景有较高的要求。今天就不介绍了。

今天讲座的主要目的在于,把一个具体的方法,结合到我的研究中。让大家去体会,我们提出一个问题,并开始做研究之后,在(研究)过程中,怎么去找素材,找相应的制度背景,建立数据库来进行因果识别。

接下来,我将结合上面所讲到的三个研究,具体介绍我们怎么使用这样的方法。

首先我们讲到了人力资本外部性这一研究。即大学生与大学生在一起,产生了知识的溢出效应,形成相互学习这一机制。问题在于,这一现象是不是存在还有很大的争论。有人说存在,有人说不存在。

我2011-2012年的时候,在哈佛大学做访学,跟著名的城市经济学家Glaeser有过一些合作。当时我跟Glaeser讲,我想用中国的数据做这样一个研究,他听完以后绝对非常好,那么我们一起来做这个研究。这个研究是什么呢?我要找一个外生冲击,或者说工具变量,这个工具变量会影响到每个城市初始起点的教育水平,这是这一变量又不会直接影响到每一个人的收入。

什么叫工具变量法的核心思想呢?我们想要建立的核心因果链条是,如果我们周围其他人的人均教育水平高,那么我的教育水平也会更高。换句话来讲,我的收入水平高,不仅是因为我的教育水平高,而是因为别人的教育水平高。那么这个时候,就叫做人力资本的外部性了。

但是这个时候也出现了一个问题,我周围其他人的教育水平,是和许多其他因素相关的。工具变量的思想是什么呢?我们找到一个因素,这个因素是一个完全外生的冲击,它会影响到我的解释变量,即我刚讲到的别人的人均受教育水平,但是不会影响到我的受教育水平,也不会直接影响到我的收入。那么这个时候,我们就建立了一个因果链条。强调一遍,我们所找到的工具变量,影响到了城市平均受教育水平,城市的平均受教育水平又影响到了我作为个体的收入,这个因果链条如果建立起来的话,就完成了整个研究了。

于是,关键问题在哪里呢?我们能不能找到一个影响了城市平均受教育水平的因素,而不直接影响个体收入水平的因素呢?这个就是我们研究的关键。这里给大家展示一张图,图中有很多数字。它描述了这样一个历史事件,在1952年的时候,发生了一件对我国高等教育产生非常深刻影响的事情,叫做院系调整。

什么叫院系调整呢?以浙大为例,在1952年之前,浙大是一个综合类的院校,但是1952年之后,浙大变成了一个以理工科为主的院校,很多文科搬到了其他院校,浙大的一些自然科学,特别是数学,也大量搬到了如复旦大学在内的院校。这个就是院系调整。这项政策有一个非常重要的背景,即我们的政策制定者希望办成苏联式的专科大学。全国到1952年以后,综合类的大学就非常少了。像浙大、清华、上海交大等,都是这场运动的受损者,变成了理工科院校,到现在这个影响仍然存在。

对于我们这个研究来讲,一个非常重要的背景就是,这次院系调整,是在城市与城市之间进行调整,很多科学家,包括大学生,实验仪器设备,甚至图书馆,就在这场运动中,跨城市的迁移。例如,浙大很多院系都迁移到了上海,上海交大很多著名的教授,则到了西安,成了现在西安交大的最早的一批著名的科学家。

我举这样一个例子,就在提醒大家,很多时候我们做社会科学研究,不光要熟悉方法,方法是不会自动帮你做研究的,方法的运用涉及到很多历史知识和制度背景的。如果我们不了解这场院校调整的历史,也就想不到用这个办法。工具变量法学会以后,电脑会帮你操作所有的流程,真正让你去用工具变量法的,是你的其他的一些社会科学知识,包括历史知识。

回到我们这张图,这张图上的数字是什么呢?这就要讲到我们的数据收集过程,你不光要知道这个历史,还要想到怎么去收集这个数据。这个数据来自哪里呢?当时,我们找到了一本书,这本书记载了中国每一所高校的历史,每一所高校中凡是涉及到了1952年,就一定会详细的介绍这所学校有哪个(院)系搬到别的地方去了,又有哪些(院)系是外面搬进来的。我们就做了一个非常艰苦的工作,带着我的学生,把每个学校的历史梳理了一遍,然后去数,该学校有多少个系搬出去了,搬到哪里去了;又有多少系搬进来,并建立了一个数据库。

现在我们在这张图看到的数字,表示的就是每一个城市搬进来的系的数量,或者搬出去的系的数量。并加总到省的层面,据此绘制了一张地图。颜色深浅表示搬出来、搬进去的程度。你会发现颜色深浅并没有什么规律,这非常重要。它说明这件事有很强的随机性。这就是我所要讲的工具变量法。接下来我要讲第二个研究。

双重差分法

我先来给大家解释什么叫双重差分方法。社会科学研究中有一个非常大的问题,用古希腊哲学家的话来讲,就是“人没有办法两次踏入同一条河流”。也就是说,你在看一个社会经济现象的时候,随着时间推移,你要找这其中的原因,最理想的状态是什么呢?就是知道,如果当时没有经历这些事情,我会是个什么样子。

比如说最近关于有些人上大学被人冒名顶替了(如苟晶事件),带来了对于人生的影响。我们无法知道,如果她当时上了大学会是怎样的。你没有办法重复这件事情。那么怎么办呢?我们就要想办法,我是不是可以找到一个张三李四,在各种各样的经历方面跟我们所要关心的人(被顶替者)完全是一样的,大家知道这个非常困难。如果能够找到的话,我们就可以看,如果(找到的)那个人上了大学,是不是当了科学家,收入是不是月薪五万,那么我把他的结果,与我今天所面临的结果一比较,就可以知道上没上大学对我来讲有什么差别。这就是双重差分的思想。

以上就是关于什么是双重差分模型全部的内容,包括:什么是双重差分模型、什么是双重差分模型、统计学论文可以用双重差分法吗等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

转载请注明原文地址:https://juke.outofmemory.cn/read/3695560.html

最新回复(0)