【计量经济学】物以类聚,人以群分?一个基于Logit模型的纽约消费隔离研究
半个世纪以来,美国社会致力于缓和种族隔离问题,在住房、就业和教育领域颁布了诸多禁止种族隔离的措施。1964年美国颁布《民权法案》,该法案禁止在公共场所进行种族歧视,是美国民权运动史上的重要进步。虽然餐馆只接受白人午餐的时代已经一去不复返了,但我们仍然感兴趣的是餐馆这种公共场所如今在多大程度上被整合了?这篇NBER working paper通过构建一个餐厅访问的Logit模型度量了纽约市餐厅消费隔离(consumption segregation)的程度,回答了该问题。
接下来,我们将从数据、模型设定、实证结果、稳健性检验等方面介绍这篇文章。
数据
本文采用Yelp用户数据和纽约市交通、人口和犯罪等数据来估计restaurant-visit decision model,并对消费隔离进行度量,在此基础上提供了空间和社会摩擦影响消费者餐馆选择的证据。
Yelp.com是美国的一个用户点评网站,网站上标明了餐馆位置、评级、价格、菜肴以及用户评价等信息。本文使用了2005-2011年间在Yelp上评论过纽约市餐馆的用户数据。首先通过文本分析找出26个与位置有关的关键词语;然后通过阅读包含这些短语的点评,来推断用户的家或工作地点是否接近被点评的餐馆;最后利用经纬度信息估计样本用户的居住位置和工作位置。将样本限制在居住和工作地点未发生改变并且位于普查区域的用户之后,我们一共得到由440个不同用户撰写的18015条用户评论的估计样本。此外,本文根据样本用户发布的个人资料照片推断用户的性别和种族。
表1报告了这440个样本用户和纽约市的人口统计特征。估计样本中61%是女性,24%是亚裔。尽管推断出种族的用户中只有10%被认定为黑人,这些用户写了1000多条评论。此外,我们无法推断5%的样本用户的性别和26%的样本用户的种族。此外,表1的隔离指数(isolation indices)说明估计样本中亚裔和黑人用户的居住隔离程度低于纽约市整体情况。
图1描述了样本用户的家庭与工作地点情况。这些用户的工作地点集中在曼哈顿五十九街以下,而他们的住所更加分散。同时,相比纽约市总体人口特征,使用Yelp的样本用户呈现出更年轻、收入更高的特征,这与Yelp全球用户群的特点相一致。
为了测量空间摩擦(spatial frictions),我们使用谷歌地图来计算交通时间。利用三角不等式,本文将居住在h、工作在w、从通勤路径p前往地区k的餐馆j的样本用户i的交通时间记为:
为了测量社会摩擦(social frictions),我们借鉴了2010年人口普查数据中对种族和民族的划分。同时我们使用欧氏距离(Euclidean distance)来度量两地区之间的民族和种族差异。起点域和终点域之间的“欧式人口距离”(Euclidean demographic distance, EDD)可以表示为:
考虑到社会摩擦不仅依赖餐馆所在地区的人口构成,也与周围地区的人口结构有关,我们计算了Echenique and Fryer (2007)提出的谱分离指数(spectral segregation index,SSI)。该指数衡量的是某一人口普查区(A)和与其人口多样性相同的普查区(B)的边界程度,以及这些普查区(B)和与其人口多样性相同的普查区(C)的边界程度,以此类推。
样本用户的选择表明了空间摩擦和社会摩擦的重要性。图5绘制了所有样本用户点评的餐馆集合的三个协变量的密度,以及他们没有点评的随机餐馆样本的密度。左边的面板描述了从家出发的交通时间,中间的面板描述了从工作地点出发的交通时间,右边的面板描述了从家庭人口普查区域到餐馆所在区域之间的EDD。此图说明Yelp用户更有可能点评离他们居住和工作地点更近的餐馆,并且这些餐馆呈现出与样本用户居住地更为相似的人口统计学特征。
此外,本文允许餐馆所在地区的收入和犯罪水平影响消费者的选择。家庭收入中位数的数据来自2007-2011年美国社区调查的5年估计(2007-2011 American Community Survey 5-Year Estimate)。在犯罪率测量方面,我们计算了地区层级(tract-level)的抢劫数据。我们使用抢劫作为犯罪率的度量,是因为这些是影响消费者去某个餐厅最常见的威胁。
模型设定
基准模型(模型1):对属于g(i)组的个体,假设她在t时选择“方式”l( 包含出发地和交通方式)到达餐厅的效用为:
特点:控制变量只与餐厅所在地和住处所在地有关,没有控制与工作所在地相关的变量。
假设在t时,消费者选择餐厅和到达该餐厅的“方式”使自己的效用达到最大,定义
由于观测到的因变量是餐厅的评论而不是餐厅的访问,文章对用户写评论的行为作了如下假设:
1)用户不评论他们未访问过得餐厅;
2)消费者至多对一个餐厅做一次评论,且在每次访问中是否做评论与访问次数独立;
3)条件于曾经到访过某个餐厅但没有写过对该餐厅的评论,则在t时刻,消费者以概率pit写该餐厅的评论,pit 独立于餐厅的特征和到访餐厅的方式。
接下来,文章按“计算t时刻餐厅j被i到访的概率-计算t时刻观测到餐厅j被个体i写评论的概率-缩减选择集合-计算个体t的似然函数-计算对数似然函数”这一过程得到对数似然函数,即条件于观察到个体i在{1,...,Ti}中的每个时段各写了一个评论以及随机抽取的集合,每个个体i在时刻t对餐馆jit写了共Ti个评论的联合概率的对数为:
由MLE可得到参数的一致估计。接下来文章构建了Sit缩减后的随机集合 ,其由满足djit*=1条件的餐厅j和由Jit'中其它可选元素组成的随机子集合构成,即除了在t时刻i的真实选择之外Sit中其它的元素都是随机抽取的。因此集合Sit分配给在t时刻给餐厅j写评论的个体i的概率可以表示为:
模型2与稳健性检验
模型1假定了消费者的偏好只与可观测的餐厅特征有关,然而不同种族的消费者可能基于观测不到的特征产生对餐厅的异质性偏好。我们在模型1中加入考虑种族和餐厅特性的效应得到下面的模型:
其中α_gj体现了选择餐馆的产生的效用中不可观测特性中的种族特定组分。使用似然比检验,可以得到结论:对于亚裔和黑人用户不能拒绝基准模型与含固定效应模型具有同样好的拟合数据的效果,而对于白人和西班牙裔用户,固定效应模型就有更好的拟合效果,两种模型的估计系数较为接近。
文章通过比较nested-Logit和基准模型的估计效果来检验IIA假设的合理性。其通过两个方案来定义巢:(a)同一烹饪类别的餐馆,Yelp评级和地区,和(b)同一烹饪类别的餐馆,价格类别,和人口普查区域;从而估计相应的nested-logit模型。这两个方案把10945家餐馆分别分为3064个和7622个巢。两种方案估计出来的巢相关系数参数均接近于1。虽然根据似然比检验,在两种方案的某些种族组别的模型拒绝了真模型是conditional-logit的假设,但其产生了与conditional-logit模型接近的系数估计和预测的in-sample isolation。由于估计这些nested-logit模型的计算成本要大得多,所以我们在计算消耗隔离和反事实结果时使用conditional-logit模型。
结合在附录A中的其它稳健性检验(如下表,简述其关心问题,检验操作和结果),可以得到在限制估计样本或引入新的协变量,模型的系数估计大体无明显变化,进而模型是稳健的。
实证结果
1.空间摩擦
本文先把住所作为空间摩擦唯一来源当成一个基准,然后依次加入工作场所和通勤进行回归。估计结果如表2所示,在前三列中,可以看到离家的交通时间这一项有很大的负系数,并且亚洲用户对空间摩擦有更高的的适应程度。中间三列加入了工作场所这一解释变量,从家出行时间的系数与其前三列的值相似,从工作场所出行时间的系数比从家出行时间的系数大30%至40%,这与下班出行的机会成本要比从家出行的机会成本高是一致的。最后三列增加了用户前往通勤路线上场地的可能。住所和工作场所前的系数基本上没有变化,且通勤路线上的出行时间表现出显著的的负系数。总之,空间摩擦在个人的城市内的消费选择上起着重要的作用,消费者不太可能去那些距离他们的住所和工作场所以及这些地点之间的通勤路线较远的地方。
2. 社会摩擦
本文同时使用地区水平和个人水平的人口统计信息,以便区分环境相似性和个体同质性。回归结果如表3所示,欧式人口距离(EDD)的负系数显示了环境相似性的作用,用户访问人口统计与其家庭普查区域不同的区域的可能性更小。由于人口规模的差异,人口差异的结果因不同种族的用户而异。所有种族的用户更有可能光顾那些EDD值较低的餐馆,黑人用户在EDD上的负系数最大。然而,黑人用户访问场所的EDD平均值实际上比非白人用户未访问的场所的EDD平均值高,这与安德森“白人通常会避开黑色空间,但作为生存的一个条件,黑人必须在白色空间中航行”这一想法一致。
个体层面上用户也表现出同质性。用户更有可能访问位于同一种族的居住人口较多的场地。相对于所有其他居住的种族和民族类别,亚洲用户更有可能访问一个拥有更多亚洲居民的区域内的餐馆,在白人或西班牙裔用户的情况下,同质性不那么明显。
总之,环境相似性和个体同质性的作用倾向于隔离消费的消费者行为模式。无论人口差异影响城市消费的具体机制如何,这些社会摩擦在塑造着消费者行为。
3 消费隔离的度量
文章通过使用在表3中估计的系数以及在纽约市所有普查区的人口组成来计算在纽约市全市范围内亚裔、黑种人、西班牙裔和白种人消费者的消费隔离程度-使用相异指数(dissimilarity index)度量。
该指数越高,消费的差异越大。用这样的方法可以讨论空间摩擦和社会摩擦对消费的相异程度的度量的影响。表7给出了对于不同种族群组居住地和消费的相异程度指数。可以看出所有组的消费隔离程度显著低于居住地隔离程度。这体现了社会摩擦和口味的异质性不能抵消居民离开他们的居住地普查区进行消费的倾向对于减少消费隔离相对于居住隔离的程度的作用。通过对比分别以及同时将基准模型中空间摩擦和社会摩擦的系数置0后得到的相异指数差异可以得出对社会摩擦相比空间摩擦对可观测的消费相异程度显著产生更大的影响。同时通过放松基准模型的假设重新估计参数和相异指数对比可见上述结果是稳健的。
模型拟合度和反事实
1. In-sample isolation
本文先将所用模型对消费分离的预测与在估计样本中观察到的结果进行比较。本文依照Gentzkow和Shapiro(2011)使用“leave-out”方法计算隔离指数,以解决有限样本偏差。Gentzkow和Shapiro(2011)的“ leave-out isolation index”衡量了g组成员不成比例地去其他访客也是g组成员的场所的程度,表达式如下:
为了生成可与数据中相比较的sg的模型预测值,我们对估计样本中的一组观察值模拟了模型预测的餐馆访问量。我先用预估模型预测每个用户将访问一个由本文模型给出的概率的场所,再从这个概率分布中,每一次观察抽取一次,生成一个模拟的sg值。我们对模型进行500次模拟以获得sg值的分布。在估计样本中观察到的值和模拟值的90%置信区间如表4所示。
2. Schelling-style isolation
由于我们无法观察到纽约市每家餐厅顾客的完整种族和民族构成,本文基准模型假设消费者偏好不依赖于该餐厅的特征。因此,我们的基准模型预测具有相同可观察特征的两家餐馆将展示相同的顾客种族构成。为了检验这个假设的合理性,本文收集了119对餐馆的种族组成信息,这些餐馆在烹饪类别、价格类别、Yelp评级和人口普查范围方面都是相同的。将一对餐厅内的“种族差距”定义为欧式距离:
Sharej是三维向量,分别是评论j餐厅的亚裔、黑人和拉美裔/白人用户的比例。将观察到的119对的餐馆的gap_p分布,与按照我们的模型随机分配到每对餐馆中的两家中的一家的情况进行了比较。
图6描述了数据和随机抽取的gap_p的分布。数据的种族差距观测的平均值是0.189。随机分布的均值是0.172。均方检验的p值为0.06。可以说,这两种分布似乎足够相似,以至于本文用来预测餐馆访问量的可观察变量中忽略了顾客的人口构成,不会从根本上改变本文的结果。
3.反事实分析
为了研究在交通设施的改变对观测到的消费隔离程度的影响,考虑两种与政策相关的反事实:
1)新增第二大道地铁(从而减少空间摩擦);
2)汽车和公共交通均减速20%(增加空间摩擦)。
由表8可知即使是在交通政策和技术的巨大变化只会对消费的相异程度产生适度的影响,这与空间隔离对总体的消费隔离贡献较小相一致;而且影响的方向可能与组别有关。为了研究社会摩擦的改变对观测到的消费隔离程度的影响,考虑将社会摩擦降低50%(这种降低可能源于政府出台旨在增进不同种族之间的理解,阻止关系紧张的相关政策。)。表8的结果表明虽然通过改变社会摩擦对于消费隔离程度的影响在量级上远大于改变空间隔离所产生的影响,相比起整个消费隔离程度的水平减小社会摩擦所带来的直接影响依然是适度的。
结语
本文就纽约市消费隔离这一现象入手,研究消费隔离背后的原因,自然能想到,空间摩擦会造成消费隔离,除此之外,本文提出社会性摩擦也是影响消费隔离的重要原因。也就是说,社会中个体的消费选择很大程度上会被个体所在种族、职业等社会关系所塑造,因职业等社会关系不同而有不同的消费选择。由此宕开一笔,当外出就餐越来越成为一种趋势时,借用本文的框架去构建choice model,分析中国情境下的消费者选择和餐饮生态,应该也是一个蛮有意思的研究问题。
学术前沿速递
学说观点
AIGC交流社区
未央网
毕宣
王凯
- 1
- 2
- 3