基于改进近端策略优化算法的智能渗透路径研究

TP309; 渗透路径规划是渗透测试的首要步骤,对实现渗透测试的自动化有重大意义.现有渗透路径规划研究多将渗透测试建模为完全可观测的理想过程,难以准确反映部分可观测性的实际渗透测试过程.鉴于强化学习在渗透测试领域的广泛应用,将渗透测试过程建模为部分可观测的马尔可夫决策过程,从而更准确地模拟实际渗透测试过程.在此基础上,针对PPO算法使用全连接层拟合策略函数和价值函数无法提取部分可观测空间有效特征的问题,提出一种改进的PPO算法RPPO,其中策略网络和评估网络均融合全连接层和LSTM网络结构以提升其在未知环境提取特征的能力.同时,给出一种新的目标函数更新方法,以增强算法的鲁棒性和收敛性.实验结果...

Full description

Saved in:

Bibliographic Details
Published in:	计算机科学 Vol. 51; no. z2; pp. 851 - 856
Main Authors:	王紫阳, 王佳, 熊明亮, 王文涛
Format:	Journal Article
Language:	Chinese
Published:	新疆大学计算机科学与技术学院乌鲁木齐 830000 16.11.2024 新疆维吾尔自治区多语种信息技术重点实验室乌鲁木齐 830000
Subjects:	长短期记忆网络 Penetration path planning 渗透测试渗透路径规划 Reinforcement learning Proximal policy optimization 强化学习 Long and short term memory networks 近端策略优化 Penetration testing
ISSN:	1002-137X
Online Access:	Get full text
Tags:	Add Tag No Tags, Be the first to tag this record!

Description
Summary:	TP309; 渗透路径规划是渗透测试的首要步骤,对实现渗透测试的自动化有重大意义.现有渗透路径规划研究多将渗透测试建模为完全可观测的理想过程,难以准确反映部分可观测性的实际渗透测试过程.鉴于强化学习在渗透测试领域的广泛应用,将渗透测试过程建模为部分可观测的马尔可夫决策过程,从而更准确地模拟实际渗透测试过程.在此基础上,针对PPO算法使用全连接层拟合策略函数和价值函数无法提取部分可观测空间有效特征的问题,提出一种改进的PPO算法RPPO,其中策略网络和评估网络均融合全连接层和LSTM网络结构以提升其在未知环境提取特征的能力.同时,给出一种新的目标函数更新方法,以增强算法的鲁棒性和收敛性.实验结果表明,在不同网络场景中,相较于现有A2C,PPO和NDSPI-DQN算法,RP-PO算法收敛轮次分别缩短了 21.21％,28.64％,22.85％,获得累计奖励分别提升了 66.01％,58.61％,132.64％,更适用于超过50台主机的较大规模网络环境.
ISSN:	1002-137X
DOI:	10.11896/jsjkx.231200165