基于强化学习的多阶段资源分配对策模型
CSTR:
作者:
作者单位:

1.国防科技大学 第六十三研究所,江苏 南京 210007;2.国防科技大学 大数据与决策实验室, 湖南 长沙 410073;3.浙江财经大学 经济学院,浙江 杭州 310018;4.北京工业大学 经济与管理学院,北京 100124;5.中南大学 交通运输工程学院,湖南 长沙 410075

作者简介:

张骁雄,副研究员,硕士生导师,工学博士,主要研究方向为智能决策与优化。E-mail: zxxandxx@163.com

通讯作者:

中图分类号:

O22;N94

基金项目:

国家自然科学基金(72471236); 北京市科技新星资助项目(Z191100001119100); 中国科协(特殊领域)青年人才托举工程项目(2021-JCJQ-QT-050)


Reinforcement Learning-based Multi-period Game Theoretic Model for Resource Allocation
Author:
Affiliation:

1.The Sixty-third Research Institute, National University of Defense Technology, Nanjing 210007, China;2.Laboratory for Big Data and Decision, National University of Defense Technology, Changsha 410073, China;3.School of Economics, Zhejiang University of Finance & Economics, Hangzhou 310018, China;4.School of Economics & Management, Beijing University of Technology, Beijing 100124, China;5.School of Traffic & Transportation Engineering, Central South University, Changsha 410075, China

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    针对资源受限下的攻防博弈资源分配问题,提出一种基于强化学习的多阶段攻防资源分配对策模型。防守者考虑如何在多阶段攻防中有效分配资源部署伪装目标以及加强真实目标防护,而多个进攻者考虑如何合作在多阶段攻防中有效分配资源识别伪装目标以及攻击真实目标。在各阶段以真实目标发挥期望效益为奖励准则,设计基于强化学习Q-learning算法的资源分配模型,生成整个周期内的攻防双方最优资源分配策略。示例研究验证了所提模型算法的有效性,能为多阶段攻防博弈资源分配提供辅助决策。

    Abstract:

    Aiming at the defense attacker game with limited resources, a multi-period game theoretic model based on reinforcement learning for resource allocation is proposed. The defender allocates resources in deploying false targets and strengthening the genuine one within multiple periods. Multiple attackers, on the other hand, distribute resources in identifying false targets and attack the genuine one among multiple targets. In each period, each player bases their decision on the expected utility of the genuine target as the reward. The Q-learning method, one of the reinforcement learning algorithms, is adopted in the game theoretic model, exploring the best resource allocation strategy over the entire planning horizon. An illustrative example was studied to demonstrate the effectiveness of the proposed model and algorithm, which can support the decision making in the resource allocation problems.

    参考文献
    相似文献
    引证文献
引用本文

张骁雄,丁松,彭锐,伍国华,刘忠.基于强化学习的多阶段资源分配对策模型[J].同济大学学报(自然科学版),2025,53(6):985~992

复制
相关视频

分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2023-03-10
  • 最后修改日期:
  • 录用日期:
  • 在线发布日期: 2025-06-27
  • 出版日期:
文章二维码