日期:2023-05-11 17:13
学习算法,需要解决行为选择和行为价值函数存储与推广问题。为了保证强化学习在实际调度中更加具有针对性,需确定基本调度要素:电力系统状态集合、行为集合、报酬函数、平均性能指标和行为值函数。在强化学习调度算法模型支持下,电网大面积停电后,对应急物资进行调度是电网恢复的重要任务之一。科学合理的调度方案能保证电力系统迅速恢复负荷,减少因故障造成的损失。应急物资在应急恢复初期往往供应不足,为此,从物料和时间角度出发,建立以物料满足度和时间满足度为目标函数的多目标优化调度模型。材料满足度是指紧急情况下获得材料