量化模型的选择准则介绍

龙听

管理员

Rank: 9 Rank: 9 Rank: 9

UID: 2
积分: 2721794
威望: 1310892 布
龙e币: 1410902 刀
注册时间: 2009-12-3
最后登录: 2024-4-27

Medal No.1

1^# 跳转到 » 倒序看帖

打印

字体大小: tT

发表于 2019-11-2 09:40 | 只看该作者

量化模型的选择准则介绍

量化模型的参数是可以通过对数据样本的校正或训练得到的，但是决定量化模型结构的超参数却无法从数据训练中的得到，而只能通过选择得到。不同的量化模型可能包含不同的超参数，例如多维时间序列模型的超参数包含了各个维度所代表的输入特征、时间序列的延时等；神经网络的超参数则包含了，每层神经元的连接方式，神经元层数等。有的研究结果甚至显示模型的超参数甚至比模型的参数训练更为重要。

因此从不同的模型超参数组合中选择出一个预测能力较强的模型既是重点也是难点。量化模型的评价和选择准则有多种，最简单的就是看模型对数据的拟合效果。这个可以考察模型对样本的均方根误差等指标。但是模型对数据的拟合效果往往不能代表量化模型的预测能力。即使所有模型与数据的拟合都存在一定的偏差，研究人员仍然希望能从中找出具有一定预测能力的模型，因为模型应用到交易当中最主要的是看模型的预测效果，模型开发人员更希望根据模型的预测效果来改进模型。一个比较直接的方法就是使用交叉验证，但是这种方法需要大量的模型拟合计算，对计算量要求较高，所以研究人员普遍希望能找到计算量较小的替代品。所以从实际操作的角度来讲，一些简单通过平衡拟合效果和参数数量的模型选择准则，仍然有一定的存在价值。但是目前学术界对使用哪种信息量准则来衡量模型并没有达成共识。

下面介绍三个常用的信息量准则原理，包括赤池信息准则，贝叶斯信息准则和交叉验证CV(Cross Validation)。

（1）赤池信息准则(Akaike information criterion, AIC)

AIC信息量准则由学者Akaike赤池提出，所以中文又称赤池信息量准则。假设一个模型包含了个需要估计的参数。是该量化模型的最大似然函数，则AIC可以表示为

从上式可以看到当模型参数数量越少，AIC越小。最大似然函数越大，即模型的拟合效果越好，AIC越小。因此AIC同时考虑到了参数数量和模型的拟合效果，AIC对模型过度拟合的惩罚主要来源于对参数数量的控制。因为通常来说增加参数数量的同时会增加模型的拟合效果，即最大似然函数增加。比较不同超参数模型组合的AIC值，最优的模型就是AIC值最小者。

（2）贝叶斯信息准则(Bayesian information criterion, BIC)

BIC在AIC的基础上把模型训练样本数量也考虑在内，BIC可以表示如下

比较公式(1)和(2)可以发现，BIC的差别主要在于对参数数量的惩罚。当时，=2.079,所以当，。通常样本数量都会大于8，因此与AIC相比，BIC更加偏向于参数数量少的模型。通常线性模型的AIC和BIC都可以直接调用软件包的函数进行计算，因此这两个准则在实际使用上比较方便。

（3）交叉验证(Cross Validation, CV)

无论AIC还是BIC，计算时都只需要拟合模型一次，求出样本内数据的拟合效果，即似然函数即可，然后根据参数使用数量和拟合效果去推断样本外数据的预测效果。因此AIC和BIC都无法直接衡量样本外数据的预测效果。而CV，即交叉验证则不同，CV直接使用样本外数据来衡量模型的预测效果。假设样本的数量为，则预留个样本用于衡量模型的预测效果，只用个样本来训练模型。这种方法面临的问题是如何选择这个样本，选多少比较合适。因为根据值不同，从个样本中选个样本总共有种选法。如果模型训练的计算量不大，可以使用LOOCV(Leave One Out Cross Validation)，即留一交叉验证。这种方法从第1，第2，…至第个样本中,依次留出一个样本，然后用剩余的个样本进行模型训练，这样需要训练次模型，才能收集到个样本外预测误差，然后根据这个样本外预测误差的统计量，例如均方根值等来进行模型评价。如果有组模型超参数组合，那就要训练次模型。与AIC和BIC相比LOOCV的计算量是他们的倍。显然当样本数量较大且单个模型训练时间较长的时候，这种方法实际上并不可行，所以这种情况下可以使用k-fold CV,这种方法就是把样本随机分成份，用份数据训练模型，剩余的一份作为样本外数据统计误差，这样可以累积统计份样本外预测误差，这种方法只需要训练模型次即可，通常使用的是=5或=10。当时，k-fold CV就成了LOOCV。

以上就常见的是量化模型的选择准则，AIC和BIC常见于似然函数较为方便计算的线性模型，而CV则常见于神经网络等非线性模型。（作者：陈维嘉）

论坛官方微信、群（期货热点、量化探讨、开户与绑定实盘）

期货论坛 - 版权/免责声明   1.本站发布源码(包括函数、指标、策略等)均属开放源码，用意在于让使用者学习程序化语法撰写，使用者可以任意修改语法內容并调整参数。仅限用于个人学习使用，请勿转载、滥用，严禁私自连接实盘账户交易。
  2.本站发布资讯(包括文章、视频、历史记录、教材、评论、资讯、交易方案等)均系转载自网络主流媒体，内容仅为作者当日个人观点，本网转载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。本网不对该类信息或数据做任何保证。不对您构成任何投资建议，不能依靠信息而取代自身独立判断，不对因使用本篇文章所诉信息或观点等导致的损失承担任何责任。
  3.本站发布资源(包括书籍、杂志、文档、软件等)均从互联网搜索而来，仅供个人免费交流学习，不可用作商业用途，本站不对显示的内容承担任何责任。请在下载后24小时内删除。如果喜欢，请购买正版，谢谢合作！
  4.龙听期货论坛原创文章属本网版权作品，转载须注明来源“龙听期货论坛”，违者本网将保留追究其相关法律责任的权力。本论坛除发布原创文章外，亦致力于优秀财经文章的交流分享，部分文章推送时若未能及时与原作者取得联系并涉及版权问题时，请及时联系删除。联系方式：http://www.qhlt.cn/thread-262-1-1.html

如何访问权限为100/255贴子：/thread-37840-1-1.html；注册后仍无法回复：/thread-23-1-1.html；微信/QQ群：/thread-262-1-1.html；网盘链接失效解决办法：/thread-93307-1-1.html

赖玉良

新生入学

Rank: 1

UID: 20463
积分: 694
威望: 352 布
龙e币: 342 刀
来自: 深圳
注册时间: 2019-9-17
最后登录: 2021-8-26

2^#

发表于 2019-12-5 15:37 | 只看该作者

学习了，感谢！

TOP

返回列表

量化模型的选择准则介绍

量化模型的选择准则介绍

[收藏此主题] [关注此主题的新回复]

[通过 QQ、MSN 分享给朋友]