cartpole游戏是一种经典的控制问题,游戏中一辆小车上顶着一根自由摆动的杆子,玩家需要实现杆子的平衡。当杆子倾斜时,小车会移动以使杆子保持直立状态。在这个游戏中,我们使用了一个简单的两层神经网络作为策略函数,输入状态包括车的位置、速度以及杆的角度和速度,输出为向左移动或向右移动的动作。通过实验发现,至少需要提供3个输入状态才能稳定一会儿,而只提供2个输入状态则无法使神经网络学习到有效的策略,而提供4个输入状态则能够使得神经网络学到更加稳定的策略。
我们使用了torch框架来实现策略梯度算法,并构建了一个简单的神经网络来进行训练。
训练过程表现出一定的不稳定性,有时需要进行多轮训练神经网络依然无法学习到有效的策略,而有时只需要进行少量迭代就能够得到令人满意的结果。
标签:游戏攻略