基于方差有界的强化学习算法,挖掘稳定 Alpha 因子公式
作者:老余捞鱼
原创不易,转载请标明出处及原作者。
写在前面的话:
本文介绍了一种名为QuantFactor REINFORCE(QFR)的新型基于强化学习的算法,旨在挖掘具有稳定性的公式化Alpha因子。该算法通过改进传统的REINFORCE算法,引入了新的基线和奖励机制,以降低算法在训练过程中的高方差问题,并提高因子对市场波动的适应性。论文通过在多个真实资产数据集上的实验,证明了QFR算法在提高资产回报相关性以及获取超额回报方面,相较于现有挖掘方法具有显著优势。
第1章 引言
本文聚焦于计算金融领域中Alpha因子的挖掘,Alpha因子是从历史金融市场数据中提取的信号,用以预测资产的未来回报并寻求超越市场平均水平的利润。本章明确了Alpha因子的两种表现形式:深度模型和公式形式。深度模型虽然表达能力强,但因为其“黑箱”特性,在风险敏感的市场中难以被投资者接受。相比之下,公式形式的Alpha因子因为其更好的可解释性而受到市场参与者的青睐。 作者还探讨了现有的Alpha因子挖掘方法,包括基于树的模型和遗传编程等。这些方法虽然在一定程度上能够挖掘出有效的Alpha因子,但它们在处理复杂的非线性关系和高维数据时可能会遇到性能瓶颈,并且计算成本较高。此外,这些方法在探索大规模表达式的搜索空间时常常遇到困难。 作者指出了最近提出的一个有前景的框架,该框架使用深度强化学习来生成公式化的Alpha因子,并且迅速获得了学术界和工业界的研究关注。这一框架通过将Alpha因子的生成过程模拟为马尔可夫决策过程(MDPs),并直接训练策略以生成一组协作的公式化Alpha因子,旨在克服传统树模型和遗传编程的局限性。
第2章 相关工作
A. 自动挖掘Alpha因子
Alpha因子通常以深度模型或公式的形式表现。深度模型形式的Alpha因子通过监督学习进行训练,利用多层感知器(MLP)、长短期记忆网络(LSTM)和Transformer等序列模型从资产的历史数据中提取特征。强化学习在计算金融和金融科技领域受到关注,尤其在Alpha因子挖掘、投资组合优化和风险管理设计中。这些方法通过将市场特征建模为状态,将买卖订单建模为动作,将盈亏建模为奖励,训练代表Alpha因子的深度策略模型。 另一方面,公式形式的Alpha因子因其更好的可解释性而受到市场参与者的偏好。过去,这些公式化Alpha因子通常由人类专家使用他们的领域知识和经验构建,通常体现了清晰的经济原理。然而,依赖人类专家的Alpha因子挖掘过程存在诸如主观性强、耗时、风险控制不足和成本高等缺点。为了解决这些问题,提出了自动挖掘公式化Alpha因子的算法,如GBDT、XGBoost、LightGBM等树模型,以及遗传编程(GP)等启发式算法。这些算法能够快速发现大量新的公式化Alpha因子,而无需人类专家的领域知识或经验,它们在性能上与更复杂的基于深度学习的Alpha因子相当,同时保持了相对较高的可解释性。
B. REINFORCE算法
REINFORCE算法由Williams首次提出,是一种直接且通用的算法,适用于可以建模为MDPs的广泛任务。然而