Deep Reinforcement Learning for Automate _股票

DeepforStockAn
论文
股票交易策略在投资中起着关键作用。然而，在复杂多变的股票市场上设计一个有利可图的策略是很有挑战性的。在本文中，我们提出了一种采用深度强化方案的集合策略，通过最大化投资收益来学习股票交易策略。我们训练了一个深度强化学习代理，并使用三种actor- based算法获得了一个集合交易策略。近端策略优化（PPO）、 Actor（A2C）和Deep（DDPG）。
集合策略继承并整合了三种算法的最佳特征，从而稳健地适应了不同的市场情况。为了避免在训练具有连续行动空间的网络时消耗大量内存，我们采用了按需加载技术来处理非常大的数据。我们在具有足够流动性的30只道琼斯股票上测试我们的算法。
对采用不同强化学习算法的交易代理的性能进行了评估，并与道琼斯工业平均指数和传统的最小方差投资组合分配策略进行了比较。拟议的深度集合策略在以夏普比率衡量的风险调整后的回报方面优于三种单独算法和两种基线。
I.
获利的自动股票交易策略对投资公司和对冲基金至关重要。它被用于优化资本配置和最大化投资业绩，如预期收益。收益最大化可以基于对潜在收益和风险的估计。然而，对于分析师来说，在一个复杂而动态的股市中考虑所有相关因素是具有挑战性的。
现有的工程并不令人满意。使用两个步骤的传统方法在[4]中描述。首先，计算股票预期收益和股票价格的协方差矩阵。然后，通过在给定的风险比下使收益最大化或在预先指定的收益下使风险最小化，就可以获得最佳的投资组合配置策略。然而，这种方法实施起来很复杂，而且成本很高，因为投资组合经理可能想要在每个时间步骤中修改决策，并考虑其他因素，比如交易成本。股票交易的另一种方法是将其建模为马尔科夫决策过程（MDP），并使用动态编程来得出最佳策略[5], [6], [7], [8] 。然而，由于处理股票市场时的状态空间较大，这种模型的可扩展性是有限的。
近年来，机器学习和深度学习算法被广泛应用于构建金融市场的预测和分类模型。基础数据(收益报告)和替代数据(市场新闻、学术图表数据、信用卡交易和GPS流量等)与机器学习算法结合，提取新的投资阿尔法或预测一个公司的未来业绩[9]，[10]，[11]，[12] 。
因此，产生了一个预测性的阿尔法信号来进行选股。然而，这些方法只专注于挑选高业绩的股票，而不是在选定的股票之间分配交易头寸或股份。换句话说，机器学习模型没有被训练成头寸模型。
在本文中，我们提出了一种新颖的组合策略，结合三种深度强化学习算法，在复杂的动态股票市场中找到最佳交易策略。这三种行为批评算法[13]是(PPO) [14], [15], Actor(A2C) [16], [17], and Deep(DDPG) [18], [15], [19] 。我们的深度强化学习方法在图1中描述。
通过应用集合策略，我们使交易策略更加稳健和可靠。我们的策略可以根据不同的市场情况进行调整，并在风险约束下实现收益最大化。首先，我们建立一个环境，定义行动空间、状态空间和奖励函数。第二，我们训练在环境中采取行动的三种算法。第三，我们使用衡量风险调整后收益的夏普比率将三种代理合在一起。合并策略的有效性通过其比最小方差组合配置策略和道琼斯工业平均指数1（DJIA）更高的夏普比率得到了验证。
本文的其余部分组织如下。第2节介绍了相关工作。第3节对我们的股票交易问题进行了描述。在第4节中，我们设置了我们的股票交易环境。在第5节中，我们驱动并指定了三种基于行为批判的算法和我们的组合策略。第6节描述了股票数据的预处理和我们的实验设置，并介绍了拟议的集合策略的性能评估。