Board logo

标题: 主成分Logistic回归模型在国债期货跨品种套利中的应用 [打印本页]

作者: 龙听    时间: 2020-6-15 08:30     标题: 主成分Logistic回归模型在国债期货跨品种套利中的应用

5年期和10年期国债期货合约的跨品种套利,是国债期货市场上较为常见的操作方式。传统理论认为,5年期和10年期国债收益率具有一致性,存在着较为稳定的利差中枢。当利差明显高于(低于)利差中枢时,收益率曲线过于陡峭(平缓),此时10年期国债价值相对5年期国债被低估(高估)。由于预期过于陡峭(平缓),收益率曲线会出现自我修复,从而带动利差中枢修复。

然而,在实际操作中,经常会面临利差突破轨道后继续上涨(下跌)并没有回归的情况。其原因在于:一方面,利差中枢需要一段时间跨度的历史数据来计算,时间跨度的选取具有经验性和随机性;另一方面,均值回归理论基于市场有效性和投资者风险偏好假设,而利差影响因素包括宏观基本面信息,传统理论并不总是适用。   

Nelson-Siegel模型   

20世纪80年代,Nelson和Siegel提出了一个用参数表示的瞬时远期利率的函数,该模型将利率期限结构分解为水平、斜率和曲率三个部分,分别可以解释实际中的远期利率市场预期、债券的风险溢价以及凸性偏离。相比传统的多项式和指数样条法,该模型更具有可解释性,符合市场预期理论,并且只使用三个β参数,具有更高的灵活度来拟合不同类型的收益率曲线:

20200614201955_3.jpg

其中,β0的系数为1,是一个常数,可以理解为一个水平因子。β1从1变为0,代表曲线的斜率,β2先增后减,代表曲度。在国内外的研究中,主成分分析法作为数据降维和避免多重共线性的常用工具,可以通过线性组合构建一个如(1)所示的三因子公式模型。

本文主要从三个方面对现有方法进行改进:第一,单独采用主成分分析对利差曲线拟合效果较差,仅能表示大致变化趋势,不能满足实际套利需要的预测精度。对因变量利差的边界进行区间处理,使用二分类Logistc回归模型进行拟合,加强了拟合程度和样本外泛化能力。第二,拓展待定因子选取范围,加入更多具有经济学解释意义的因子,利用相关系数进行初步筛选。第三,为了使整个模型更具有可解释性,运用最大化方差法旋转因子,使Nelson-Siegel模型内三个预测变量的整体贡献方差达到最大。


主成分分析

本文选取10年期和5年期国债利差、国债指数历史波动率、国债指数动量(历史涨跌幅)和流动性(成交量)、汇率、Shibor等指标,筛选后得到共计12个解释变量,通过归一化和去极值后加入到模型中。

为了实现数据降维,同时最大程度减少原始数据信息的丢失,笔者引入主成分分析法,基本思路是,从p个相关的解释变量中提起出k个不相关的主成分,每一个主成分都是原始变量的线性拟合,第一个主成分最大程度解释了原始变量数据的方差,具有最大的特征值。第二个主成分与第一个主成分之间不存在线性关系,它最大程度解释了剩余方差,以此类推。因此,参照公式(1)中的三个解释变量,从原始数据中提取出前三个主成分,分别可以解释样本94%、5%和1%的方差。   

最大方差法

通过主成分分析提取的三个主要成分,均由原始数据的因子线性组合而成,这样的向量称为载荷矩阵。多数情况下,估计出的因子载荷在各个因子上并不突出,在一定程度上影响了模型解释度。由于因子载荷矩阵并不唯一,可以通过旋转的方式突出因子的特征,使各个因子载荷之间的距离尽量拉大,即方差最大化。理论上,因子旋转后,每个主成分都包含了一些较大和较小的因子载荷,通过观察较大载荷的因子,便于解释其主成分所代表的原始信息。  

Logistic回归

跨品种套利聚焦利差的相对变化位置,而不是连续的利差预测曲线,离散型变量相对于连续型变量在模型预测方面提供了更灵活的空间,输出结果与套利的方向操作有较大的兼容性。因此,下面对因变量10年期和5年期利差做二分类处理,扩大记为1,缩小记为0。

Logistic回归不同于线性回归,它不要求模型变量间具有线性的相关关系,不要求服从协方差矩阵相等和残差项服从正态分布等,使得模型较为简洁高效。通常来讲,Logistic回归基于极大似然估计方法,逐步选择重要的解释变量,无法避免多重共线性和对原始数据依附性的问题。由于在该案例中,原始数据已经由上述步骤所得的三个独立的主成分代替,已经规避了类似问题,如以下公式所示:

20200614202027_4.jpg

笔者利用统计检验的方法,分别比较了单独采用Logistic回归、主成分分析+Logistic、主成分分析+因子旋转+Logistic在样本内和样本外的表现。

实证研究显示,在拟合程度和样本外泛化能力两个方面,后两个模型均优于仅使用Logistic回归的模型,结合因子旋转的主成分Logistic模型,在样本外预测准确率上略好于没有采用因子旋转的模型,同时考虑到因子旋转后具有更强的实际解释意义,所以主成分分析+因子旋转+Logistic回归整体表现更好。

20200614202120_5.jpg

表为检验方法统计

在经济数据普遍具有高维和内在相关性的背景下,上述三个方法的结合使用在尽可能减少原始数据信息丢失的前提下,构建了具有独立简约含义和可操作性的利率模型。将模型产生的预测信号运用于10年期和5年期的跨品种套利,历史回测显示获得了较好的收益表现。



图片附件: 20200614201955_3.jpg (2020-6-15 08:30, 8.93 KB) / 下载次数 23
http://www.qhlt.cn/attachment.php?aid=19511&k=93cd61f2cc42ab5b7448511e5657784a&t=1715226465&sid=8wePu8



图片附件: 20200614202027_4.jpg (2020-6-15 08:30, 20.78 KB) / 下载次数 21
http://www.qhlt.cn/attachment.php?aid=19512&k=8c9faf2abda2cfffe8f38e1a29847f09&t=1715226465&sid=8wePu8



图片附件: 20200614202120_5.jpg (2020-6-15 08:30, 24.49 KB) / 下载次数 22
http://www.qhlt.cn/attachment.php?aid=19513&k=635042be1145f2fad6d7fe3d84e8365f&t=1715226465&sid=8wePu8






欢迎光临 龙听期货论坛 (http://www.qhlt.cn/) Powered by Discuz! 7.2