作者您好 #17

chenaaaaaaaaaaaaaaaaaaaaaaa · 2024-11-07T13:44:52Z

我想问一下如果是离散和连续行动是冲突的情况下我采用H-PPO算法我每次作用到环境中只包含离散或者连续行动的其中一个行动那么我在这个情况下是只更新输入到环境中的那个离散或者连续行动网络还是同时更新网络呢这种未作用于环境的action如果进行更新是不是会对这个网络的参数产生偏差

Provide feedback