经济学院魏杰提出基于文本数据的分位数预测新方法

华中科技大学讯 2月23日，经济学院魏杰副教授与美国田纳西大学Luiz Renato Lima教授、巴西UFERSA大学Lucas Lúcio Godeiro教授合作的学术论文《基于文本数据的因子分位数预测》（Factor-Based Quantile Forecasting With Textual Data），在线发表于国际计量经济学权威期刊《应用计量经济学》（Journal of Applied Econometrics）。该研究聚焦于宏观经济与金融市场预测中的尾部风险问题，创新性地提出了一种嵌入分位数因子模型的“注意力机制”。

经济学院魏杰提出基于文本数据的分位数预测新方法

研究突破了传统金融文本分析预设固定词典的局限。研究团队构建了一个保留多元词组（bigrams和trigrams）的高维动态特征集，并指出不同文本对经济变量的上行和下行尾部风险具有显著的“特定分位数稀疏性”。为此，论文创新性地提出“分位数目标注意力”机制，运用弹性网络（Elastic-Net）分位数回归，精准筛选出与特定目标变量、预测期限及尾部分位数高度相关的文本特征，进而提取出分位数专属的扩散指数（DI）因子用于条件分位数预测。

在统计理论推导方面，研究团队借助Kato凸性引理处理了损失函数的非可导性，证明了弹性网络在高维文本变量选择上的一致性。同时，论文严格推导并确立了基于因子的分位数预测量及其系数的渐近正态分布性质。理论结果进一步揭示，主成分分析（PCA）步骤引入的估计误差在渐近意义上是可以忽略的，且分位数预测值能够以特定速率一致地收敛于真实值，为因子增强的分位数预测提供了坚实的理论基础。

在实证应用中，该模型展现出优异的预测性能。研究考察了美元兑加元（USD/CAD）汇率回报及工业生产（IP）增长率的尾部风险，发现双词和三词组合是提升尾部预测精度的核心驱动力，且表现显著优于传统的强基准模型。此外，论文还将该预测模型应用于实际的投资组合配置中，结果表明，基于该模型精准的尾部风险预测指导外汇交易，能够帮助投资者避开极端风险，实现更优的资产配置，并获得更高的风险调整后收益（夏普比率）。

值得一提的是，为了验证模型的可靠性，研究团队创新性地引入了由ChatGPT生成的“合成虚假新闻”进行压力测试。结果表明，当输入脱离真实历史的虚构文本时，该模型不会产生虚假的预测增益，展现出对错误信息的卓越鲁棒性。此外，交叉验证也证实了模型提取的文本信号严格具有特定于分位数、目标变量和预测期限的独特性。

论文链接

https://onlinelibrary.wiley.com/doi/10.1002/jae.70047

原创文章，作者：荆楚之窗，如若转载，请注明出处：https://www.jingchucn.com/81102/