学术研究如何影响股市?成熟投资者会追踪最新学术成果进行套利
你知道如何在众多股票中选股吗?
多因子模型便是一种很常用的选股模型。它的基本原理是找到一系列因子作为选股标准,这些因子可以预测股票收益,我们只需要买入满足这些因子的股票,同时卖出不满足这些因子的股票。
因此,一个重要的工作就是寻找那些与股票收益最相关的因子。
许多学术研究发现了各种因子和股票收益之间的预测关系。一个值得思考的问题是,随着学术论文的发表和广泛传播,这些因子的预测作用是否会有所削减甚至消失?
也就是说,因子和股票收益之间的预测关系在那些学者的原始研究样本之外是否仍然存在?
来自德保罗大学的R. David McLean和波士顿学院的Jeffrey Pontiff于2016年在金融学国际顶级期刊《Journal of Finance》发表论文“Does Academic Research Destroy Stock Return Predictability?”,文章从大量金融学、会计学和经济学期刊中找到用于预测横截面股票收益的 97 个因子,比较了每个预测因子在三个不同时期的收益情况:(i) 原始研究样本期;(ii) 原始样本之后发表之前的时期;(iii) 发表后时期。
文章发现,预测因子的样本外收益降低 26%,发表后收益降低 58%,表明投资者可以从学术发表的研究成果中进行学习,了解股票定价的偏差,在纠正股票价格的同时获取收益。
该文在2013年5月投稿《Journal of Finance》,2016年2月正式刊出发表。
研究方法
文章首先在同行评议的金融学、会计学和经济学期刊中寻找因子,要求满足显著性水平5%且因子使用公开数据构建,搜索过程确定了 97个因子。
文章针对每个预测因子构造多空投资组合,同时买卖基于因子的上下五分之一股票,买入的是原始研究表明具有更高回报的那端。
如果预测因子的收益可预测性部分来自统计偏差(Statistical Bias),应该观察到样本外收益可预测性下降。
样本内收益和发表后收益之间的差异则由统计偏差和投资者从文章中学习的程度共同决定。如果收益可预测性部分反映了错误定价,并且发表会导致成熟投资者了解错误定价并对其进行交易,那么预计与预测因子相关的收益应该在文章发表后衰减甚至消失。
描述性统计
文章根据样本结束日期和文章发表日期对时间进行细分。文章假设更多投资者在发表日期之后了解预测因子,然而一些投资者可能要等到文章发表多年后才会阅读,因此发表后收益可预测性的衰减可能是一个缓慢过程。
表I提供了预测因子投资组合的描述性统计。97个投资组合样本内月收益的均值为0.582%,样本外、发表前月收益的均值为0.402%,发表后月收益的均值为0.264%。原始样本时间区间平均为323个月,样本结束日期和发表日期之间的时间区间平均为56个月,发表后时间区间平均为156个月。样本在2013年结束。
文章发表日期由期刊封面上的年份和月份决定,但是以文章第一次出现在SSRN中等指标衡量也可以获得相同的结果。
实证分析
1. 样本外和发表后的投资组合收益情况
因变量是预测因子i在t月的收益。如果t月在原始样本结束之后但发表之前,则Post Sample Dummy等于 1;如果在发表之后,则Post Publication Dummy等于 1。
样本外系数β1估计统计偏差对预测因子样本内表现的影响。这是一个上限估计,因为成熟投资者可能在文章发表之前就知道工作论文并据此交易。发表后系数β2估计了统计偏差和发表的共同影响。
表II第1列报告了基准回归结果,样本为97个预测因子的完整样本。样本外系数为-0.150,发表后系数为-0.337。因此,平均而言预测因子投资组合的收益在样本外下降15.0个基点,在发表后下降33.7个基点,样本外和发表后的收益相对于样本内均值分别下降了26%和58%。
第2列的回归仅包含 85 个预测因子,排除了样本内收益t统计量小于1.5的12个因子(t小于1.5可能是由于与原始研究数据使用不同或投资组合构建方法不同),排除这些因子不会改变结论。
表II底部报告了发表后系数和样本外但发表前系数是否相等的检验。上述两个回归的该系数均在5%水平上显著不同。这种差异说明,与发表相关的影响无法用统计偏差来解释,因为统计偏差应该完全反映在样本外但发表前的系数中。
表II底部还报告了预测因子投资组合的收益是否在发表后完全消失的测试。该检验基于线性约束(linear restriction),线性约束将发表后系数完全等于预测因子样本内收益,该检验与发表后系数的t检验结合起来能够轻松拒绝两个原假设,一是异常收益会完全衰减,二是异常收益不会衰减。
第3列的回归包括每个预测因子的样本内收益与样本外和发表后虚拟变量的两个交叉项,发现样本内收益更高的预测因子在发表后收益下降更多。这种关系也展示在图1(图A)中,该图绘制了每个预测因子的样本内收益与其发表后下降的关系。
第4列的回归将样本外和发表后虚拟变量与预测因子的样本内t统计量构造交叉项,发表后下降的相关情况展示在图1(图B)中。
2. 不同类型预测因子的收益及发表后衰减是否有所不同
本节将预测因子分为四大类,分别是事件类、市场类、估值类和基本面类。表IV回归中包含预测因子类型虚拟变量、发表后虚拟变量以及二者交叉项。
预测因子类型系数β2估计一类预测因子的样本内平均收益与其他类型的差异。结果表明,基于市场的预测因子样本内收益最高,而基于基本面的预测因子样本内收益最低。交叉项系数β3检验发表后下降程度是否因预测因子类型而异。基于市场的预测因子下降幅度最大,但并不显著。
发表后收益的差异由类型系数和交叉项系数β2与β3之和给出。表IV底部两行汇报了总和及相关p值。尽管基于市场的预测因子在发表前收益很高,但发表后收益并不明显高于其他类型的预测因子。这一结果与表II中的结果一致,样本内收益较高的预测因子在发表后的收益下降幅度较大。
3. 成本套利
部分文献指出套利相关成本可以阻止套利者完全消除错误定价。因此,集中在套利成本较高的股票的预测因子投资组合应该在发表后收益下降较少。
文中成本套利变量包括三个交易成本变量(公司规模、买卖价差和美元交易量),以及两个持有成本变量(异质性风险和股息支付的虚拟变量),并基于上述五个变量创建了一个成本套利指数。指数越高,套利成本越低,预期投资组合收益越低。指数与公司规模、股息支付和美元交易量正相关,与买卖价差和异质性风险负相关。
表V中报告了相关结果,套利成本较低的投资组合具有较低的发表前收益。五个成本套利变量(包括指数)系数β2的符号与预期相同且具有统计显著性。美元交易量系数相反但不显著。
文章发表传播之后,套利成本较低的投资组合也具有更低的发表后收益。发表后收益的差异由成本套利系数β2与交叉项系数β3之和给出,系数之和及其p值展示在表V最后两行。六个变量符号都与预期相同,其中五个具有统计显著性。
如果预测因子的收益反映了错误定价,并且错误定价有一个共同来源(例如投资者情绪),那么预计样本内预测因子投资组合与其他样本内预测因子投资组合相关。如果发表导致套利者对预测因子进行交易,那么发表可能导致预测因子与其他已发表预测因子的相关性升高,而与未发表预测因子的相关性降低。
表VII用所有其他发表前预测因子投资组合的等权重加权收益以及所有其他发表后预测因子投资组合的等权重加权收益对预测因子投资组合收益进行回归,同时包括发表后虚拟变量,以及该虚拟变量与发表前和发表后投资组合收益的交叉项。回归结果验证了上述分析。
研究结论
文章主要结论有以下几点:
1)预测因子样本外收益降低 26%,发表后收益降低 58%。说明已发表研究中的收益可预测性部分来自统计偏差,部分反映错误定价,发表会导致成熟投资者了解错误定价并对其进行交易。
2)样本内收益较高或者预测性更显著(t值更大)的预测因子,发表后原收益的下降幅度更大。
3)由于套利会有成本,所以股票的错误定价无法被完全消除;当投资组合中的股票的套利成本较高时,预测因子的收益在学术研究成果发表后下降得较少。
学术前沿速递
学说观点
AIGC交流社区
未央网
毕宣
王凯
- 1
- 2
- 3