Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

关于PPO-discrete的时间问题 #10

Open
twodog0508 opened this issue Jun 13, 2024 · 4 comments
Open

关于PPO-discrete的时间问题 #10

twodog0508 opened this issue Jun 13, 2024 · 4 comments

Comments

@twodog0508
Copy link

作者您好,您的代码中H-ppo的时间范围为10s~40s,与PPO-discrete对比时,我发现PPO-discrete的持续时间作为10s,结果优于H-PPO;15s时,H-PPO效果好。您的结果是否如此?做混合动作空间对比实验时,是否需要与离散的ppo算法不同的持续时间做对照组?希望作者解答我的困惑。万分感谢!

@twodog0508
Copy link
Author

h-ppo算法与离散ppo算法最优的结果相比较,是怎么的?

@Metro1998
Copy link
Owner

Metro1998 commented Jun 13, 2024

ppo-discrete 理论上其控制效果与决策间隔(你所说的10s或者15s)有一个‘V’字形的关系,当决策间隔过小时,可能会有频繁切换相位的问题,当决策间隔过大的时候可能会部分方向不饱和释放,详见论文Reinforcement Learning for Traffic Signal Control in Hybrid Action Space section V.E.2。这个‘V’字形与FRAP中的发现是相悖的,这可能与我没有在PPO-discrete的奖励中加入切换相位的惩罚项有关(或者其他因素),但是通过实验我还是觉得这个V是比较明确的。
至于PPO-discrete和H-PPO算法性能的问题,可能会与环境复杂程度(可以看看论文中的流量图)、模型参数(应该在附录中)或者reward的设计(我并没有在ppo-discrete的奖励中加比较复杂的设计)有关,至少在我的实验中H-PPO相较于PPO-discrete-best(通过grid search寻得)是有一定程度的提升的。至于为什么会有这种提升,可以参照论文中section.VI.A中不太‘’成熟”的论证

@twodog0508
Copy link
Author

twodog0508 commented Jun 13, 2024

感谢,我猜测也许是我的车流过少,车辆在交叉口的停车数比较少,而且环境下离散PPO采用10s时的结果只优于H-PPO一点点!
image您在论文中提到了这三个场景的车辆为150辆/h、200辆/h、250辆/h,是指每条车道或movement吗?

另外,我想请教如何采用IDM模型去生成SUMO的车流文件?

@ohhhor2
Copy link

ohhhor2 commented Jul 5, 2024

感谢,我猜测也许是我的车流过少,车辆在交叉口的停车数比较少,而且环境下离散PPO采用10s时的结果只优于H-PPO一点点! image您在论文中提到了这三个场景的车辆为150辆/h、200辆/h、250辆/h,是指每条车道或movement吗?

另外,我想请教如何采用IDM模型去生成SUMO的车流文件?

您好,请问您跑起来这个代码了吗?我在复现这个实验上面有一些困难,可不可以和您交流一下?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants