使用深度强化学习解决高维多期环境下的组合配置研究报告.pdf

基本信息

文件名称：使用深度强化学习解决高维多期环境下的组合配置研究报告.pdf

文件大小：2.88 MB

总页数：22 页

更新时间：2025-03-17

总字数：约4.13万字

文档摘要

五

[Table_StockNameRptType]

金融工程

专题报告

使用深度强化学习解决高维多期环境下的组合配置

——“学海拾珠”系列之二百二十七

报告日期：2025-03-13主要观点：

[Table_RptDate]

[Table_Summary]

本篇是“学海拾珠”系列第二百二十七篇，文献设计了一个先进的

投资组合配置框架，使用卷积神经网络获得资产价格的动态模式，并通

过WaveNet对跨资产依赖性进行建模，结合DRL方法求解多期

Bellman方程，获得最优长期投资组合配置。在不同持有期、风险厌恶

系数、交易成本和不同指数上进行实证测试后，发现该方法较为优越。

回到国内市场，我们也可以应用类似的深度强化学习模型进行组合构

建。

?投资者的长期优化问题

传统的投资组合选择方法通常考虑单期收益。Markovitz（1952）开

创了均值-方差优化模型，是投资组合理论的基础。

文献提出一个基于DRL（含CNN和WaveNet）的投资组合框架来

解决高维多周期环境下的优化问题，所设计的投资组合策略框架主要包

括三个组成部分。首先，采用基于卷积神经网络（CNN）的序列信息来

捕捉每种资产价格中的动态模式。其次，使用WaveNet对投资组合中

[Table_CompanyReport]

相关报告资产之间的交叉依赖性进行建模，这在高维环境中尤为重要。最后，将

1.《风险规避型强化学习模型在投资以上两大部分作为DPG模型的输入来优化投资组合配置，将该方法表

组合优化中的应用——“学海拾珠”示为MP-Adv-DRL-Cor。

系列之二百二十六》

2.《贝塔异象的波动性之谜——“学?实证结果

海拾珠”系列之二百二十五》投资组合的盈利能力随着投资期限的延长而增加，同时年度波动率

3.《ETF的资产配置与再平衡：样本协也上升。风险厌恶系数λ的增加意味着投资者更倾向于选择保守策略以

方差对比EWMA与GARCH模型—降低投资组合风险。这种偏好导致交易频率和投资活动减少，获得高额

—“学海拾珠”系列之二百二十四》年回报和高夏普比率的可能性受到限制。交易成本的存在主要影响投资

4.《市场对投资者情绪的反应——“学组合的盈利能力，而不会增加风险，它还对投资组合的换手率产生重大

海拾珠”系列之二百二十三》影响。在存在交易成本的情况下，投资者在投资机会随时间变化时调整

5.《基于语境的财务信息解读——“学投资组合权重的动机减少。

海拾珠”系列之二百二十二》通常，MP-Adv-DRL-Cor方法的业绩表现优于其他比较方法。对于

6.《跟踪误差的构成成分、中期交易与持有期h=1，交易成本ξ=0.05%和风险厌恶系数λ=0.1的条件下，