地平线是无限的,彩虹是终极的。
看潮流,永远标记世界。
做人做事,大家都在遵循一个动态的模式。做人,看货;做事,看音乐。
动态模型有哪些图
安迪普雷斯顿
事情没有我想的那么糟。
自20世纪80年代以来,在学术界,动态随机一般均衡(DSGE)模型的使用在宏观经济学和中央银行中变得无处不在。这些模型是动态的,因为它们的特点是代理人会随着时间的推移做出决策。它们是随机的,因为它们的特点是一系列变量的不确定性,这些变量最终驱动模型波动。最后,它们是一般均衡模型,因为价格、利率和数量都是同时确定的,这意味着所有代理人都满足其最优条件。2007-09年金融危机后,这些模式受到了很多批评。例如,参见约瑟夫斯蒂格利茨2017年发表的非常有影响力的论文。在我看来,这些批评有些是有根据的,尽管许多是没有根据的,而且应该指出,在随后的十年里,许多更合理的批评被纳入了主流的DSGE模式。然而,大多数批评都是针对DSGE模型的基本原则,例如,批评制度假设的有效性,或者强调这些模型没有充分考虑金融部门的作用以及由此产生的对整个宏观经济的摩擦。
两位统计学家丹尼尔j麦克唐纳(Daniel J. McDonald)和科斯马罗希拉沙立齐(Daniel Roh illa shali zi)在最近一篇颇具争议性且有趣的论文中,将他们的批评指向了DSGE文献的另一个方面,即这些模型的估计过程。他们提出了两个关键点,我将引用Shalizi在这个问题上的博客帖子:
斯梅茨-伍特斯(2007)模型是一个大规模的DSGE模型,它代表了文献中的一个标杆,因为它包含了大量宏观经济学家通常认为与实践有关的摩擦。这是一个非常有影响力的模型,它为央行和金融机构使用的许多其他模型奠定了基础。在他们的AER论文中,Smets和伍特斯用美国的数据估计了他们的模型,发现该模型在样本中可以超越贝叶斯var(一种不同的宏观技术,不表达其对经济世界清晰结构的立场)的表现。这段时间对DSGE模式是一个严重的打击,这也是为什么大多数私营部门对DSGE模式的目的持有相当负面的看法的原因之一。
从表面上看,麦克唐纳和沙丽子(以下简称ms)的批评非常令人担忧。以上两点中的第一点基本上是,如果我们采用一个DSGE模型,我们知道真实的参数集,用参数化的模型生成虚假的仿真数据,然后在仿真数据上对模型进行估计,这个过程将无法可靠地获得真实的参数。显然,在实践中,当我们估计这些模型时,我们并不知道真实的参数(否则,我们不会这么麻烦),但这是一种在实验室环境中测试估计性能的方法,我们知道真实的数据生成过程。如果模型在我们知道真相是什么的情况下还找不到真相,那么我们就应该高度怀疑在真实世界数据上生成的估计结果。因此,这是一个低标准。但是他们发现模型无法通过这个低标准,很多参数估计值与其真实值偏差很大,而且参数估计的误差并没有随着模拟样本长度的增加而减小。
这个结果给我留下了深刻的印象,因为在我自己的工作中,我经常做非常类似的练习,来检查一个模型在模拟数据上进行估计时是否能够正确恢复参数,然后应用到真实数据上。需要指出的是,这是估计DSGE模型时的标准做法,与MS暗示的情况不同,例如,Schmitt-Grohe和Uribe(2012)通过在与他们的经验样本长度相同的模拟数据上估计他们的模型,检查他们的估计程序是否正确地恢复了真实参数。当我过去这样做时,它的表现通常很好,这与MS的发现形成了鲜明的对比。因此,我想测试我自己版本的Smets-伍特斯模型。我不会完全照搬MS在他们的论文中所做的,但我会尝试做我认为典型的宏观经济学家在根据真实世界的数据估计他们的模型之前会做的事情。我会使用Matlab中的Dynare包来做所有的事情,这在实践中几乎是普遍使用的。这是与MS的显著区别:
“为了估计模型,我们最小化负对数的可能性并惩罚先验。这与在贝叶斯环境中寻找最大后验估计是一样的。由于可能性是不稳定的,并且有许多平坦部分和局部极小值,我们使用r的optimr包。我们使用模拟退火方法和共轭梯度技术来估计参数。模拟退火法以有原则的方式随机探索可能的曲面。每个程序从5个随机初始化(从先前分布中提取)开始,并对每个起始点运行50,000次迭代(可能性评估)”。
这些都没问题,用R代替Dynare也没什么问题,但Dynare的优势在于,它是显式设计来求解和估计宏模型的,并且包含了许多有用的诊断测试。例如,实践中的一个常见问题是在估计过程中寻找后验密度的全局模式。如果做不到这一点,就会导致后续Metropolis Hastings算法的收敛性出现重大问题。例如,约翰内斯普费菲表明,杰曼和夸德里尼(2012)的原始估计存在这个确切的问题,而修改后的估计导致明显不同的参数估计和其他各种结论。Dynare内置了许多不同的模式搜索器,其中一些是显式设计的,用于处理为多模态后验密度查找全局模式的问题,以及检查以验证是否确实找到了全局模式。该软件包是通过一个丰富的开发者和用户社区开发的,这意味着多年来发现了许多错误,然后这些问题得到了解决。这给了我信心,它可以做出很好的估计,任何遗留的问题都是真实的。
首先,我将对模型进行一些识别检查,这是Dynare提供的另一个有用的功能。虽然MS将有关DSGE模型辨识的文献描述为“相切”,但这是现实中的核心问题。如果一个参数的辨识能力很差,增加数据量对其估计精度的影响有限。众所周知,这种弱识别是许多DSGE模型的问题,关于这一主题的论文有很多,如Canova和Sala(2009),Iskrev(2010),Komunjer和Ng(2011),等等。这促使人们使用贝叶斯技术来估计宏模型,宏模型包含了可能难以识别的参数的先验信息。后两篇论文提出了诊断测试,允许从业者评估参数集的识别程度。这些测试是在Dynare中实现的。让我们看看在数据中使用参数先验集和观察变量的情况下,SW中的估计参数集的识别程度如何:
似乎有四个参数尚未确定,但正如约翰内斯普费菲在他的软件模型的Dynare文件中指出的那样,实际情况并非如此。
“请注意,在之前的平均值中,cmap、crhopinf和cmaw、crhow是成对的。因此,对之前的平均值运行识别将返回警告。但这只是部分问题。这些参数仅在先验均值处不可区分,但在不同点处不可区分。”
大多数其他参数都相当容易识别。这绝对是一个很好的做法,做这个识别测试,因为对于一些DSGE模型,一些参数很难识别或根本没有识别。
接下来,我将从SW模型生成模拟数据,并将参数校准到他们在原始论文中找到的后验模式。然后,我将根据模拟数据估计模型,并将每个估计的参数与其“真实”值进行比较。我在Dynare中使用mode_compute=9选项,这是一个模式搜索器,旨在寻找全局模式。然后我将使用Metropolis-Hastings算法中的20,000个样本来评估后验概率。我将对不同长度的模拟样本进行操作,从300个季度的长度(n)开始,考虑到数据的可用性,这个长度大致相当于我们在实践中通常使用的宏观经济数据的长度。然后我会增加到1,000,2,000和最后5,000个季度来评估估计误差(估计参数和“真实”参数之间的差异)是如何演变的。首先,看一下300个季度的图表:
即使在这种真实样本长度下,估计模型也能很好地恢复真实参数。当然,这几个点并不完全落在45度线上,但误差并不大。这与MS的发现形成鲜明对比(引文已编辑,参数符号已删除):
比如,劳动力供给对实际工资的弹性被低估了约-93%。基本上,这些数据没有提供衡量实际工资对滞后通货膨胀依赖程度的参数信息。其他被低估的参数包括资本调整成本函数的稳态弹性。在所有这些情况下,估计值都是有偏差的,因此使用真实数据的估计值来得出关于真实经济的结论是不明智的。
在我对N=300的估计中,我发现劳动供给对实际工资的弹性是1.75,而真实值是1.95;实际工资对滞后通货膨胀参数的依赖估计为0.30,而实际值为0.32;调整后的资本成本函数的稳态弹性估计为0.23,而真实值为0.27。这些误差显然不大。所有参数的均方根误差(RMSE)为0.09,反正不会夸大。
对所有模拟样本长度阵列重复此练习:
集合的RMSE随着样本长度的增加而减小,这与估计量相合的概念是一致的。这里的结果表明,对Smets-伍特斯模型不能成功的批评是不合理的,即使是从自己生成的模拟数据中估计出来的。我不能确切地解释为什么我会得到这样一个不同的结果,这是相当不令人满意的,但如果我必须猜测,我会将其归因于Dynare和r之间的差异。个人而言,我倾向于相信Dynare中产生的结果,因为前面提到的原因。应该指出的是,约书亚布劳特也进行了与我在这里描述的非常相似的练习,并发现了非常相似的结果。
MS提出的第二点是,重新标记用于估计模型的变量可以导致更好的拟合。我不确定如何理解这种批评。值得指出的是,众所周知,许多宏观经济变量表现出非常高的相关性,因此,这可能会削弱变量交换对参数估计的影响。利亚博尔达(Lia Boldea)在推特上雄辩地提出了另一个观点,即这些变量的交换产生了一个故意错误的模型,所以你估计了错误的可能性。归根结底,这意味着这个练习对模型的任何具体缺陷都没有参考价值,纯粹是一个统计练习。
我通常欢迎对宏观范式的批评,包括来自另一个学科而不是内部人士的批评,就像这里的情况一样。我的观点是,这是一个重要的机制,通过它事情可以得到改善。这方面的一个很好的例子是,在疫情期间,流行病学模型自然受到了大量的审查,这暴露了一些紧迫的问题。然而,麦克唐纳和沙立子在这里的具体批评似乎充其量是夸大其词。说Smets-伍特斯模型即使作为一个数据生成过程也无法恢复真实参数当然是不准确的,对变量交换的批评也未必有作者说的那么震撼。为了避免怀疑,我绝不是说DSGE的估计完全正确。事实上,在实践中,识别是一个严重的问题,但宏观经济学家清楚地认识到这一点,并采取措施来测试和解决它。另外,型号指定错误肯定是个问题。Den Haan和Drechsel(2021)在Smets-伍特斯模型中发现了这个问题,并提供了一些纠正措施。
跨学科批评最终是一把双刃剑。一方面,对根深蒂固的现状的新观点无疑是有益的,应该受到欢迎。另一方面,我们不能指望一个对某一领域不熟悉的人知道所有相关的文献。因此,我们在这个过程中错过了一些既定的智慧也就不足为奇了。不幸的是,麦克唐纳和沙立兹对DSGE估计的批评似乎是以牺牲前者为代价的,而后者被广泛采用。
注:Shalizi的博客文章:“然而,‘让我们在模拟输出上试试估计器’是,或者应该是,一个完全标准的诊断方法,它似乎是缺乏的,尽管有大量关于DSGE的有争议的文献”。