Fixed RL examples to work with new gym API (#2706)

vfdev-5 · web-flow · commit 8a75fb1324be · 2022-09-09T09:07:31.000Z
diff --git a/examples/reinforcement_learning/actor_critic.py b/examples/reinforcement_learning/actor_critic.py
@@ -82,7 +82,7 @@ def main(env, args):
     def run_single_timestep(engine, timestep):
         observation = engine.state.observation
         action = select_action(model, observation)
-        engine.state.observation, reward, done, _ = env.step(action)
+        engine.state.observation, reward, done, _, _ = env.step(action)
         if args.render:
             env.render()
         model.rewards.append(reward)
@@ -99,7 +99,8 @@ def initialize(engine):
 
     @trainer.on(EPISODE_STARTED)
     def reset_environment_state(engine):
-        engine.state.observation = env.reset()
+        torch.manual_seed(args.seed + trainer.state.epoch)
+        engine.state.observation, _ = env.reset(seed=args.seed + trainer.state.epoch)
 
     @trainer.on(EPISODE_COMPLETED)
     def update_model(engine):
@@ -147,7 +148,5 @@ def should_finish_training(engine):
     args = parser.parse_args()
 
     env = gym.make("CartPole-v1")
-    env.seed(args.seed)
-    torch.manual_seed(args.seed)
 
     main(env, args)
diff --git a/examples/reinforcement_learning/reinforce.py b/examples/reinforcement_learning/reinforce.py
@@ -72,7 +72,7 @@ def main(env, args):
     def run_single_timestep(engine, timestep):
         observation = engine.state.observation
         action = select_action(model, observation)
-        engine.state.observation, reward, done, _ = env.step(action)
+        engine.state.observation, reward, done, _, _ = env.step(action)
         if args.render:
             env.render()
         model.rewards.append(reward)
@@ -89,7 +89,8 @@ def initialize(engine):
 
     @trainer.on(EPISODE_STARTED)
     def reset_environment_state(engine):
-        engine.state.observation = env.reset()
+        torch.manual_seed(args.seed + trainer.state.epoch)
+        engine.state.observation, _ = env.reset(seed=args.seed + trainer.state.epoch)
 
     @trainer.on(EPISODE_COMPLETED)
     def update_model(engine):
@@ -137,7 +138,5 @@ def should_finish_training(engine):
     args = parser.parse_args()
 
     env = gym.make("CartPole-v1")
-    env.seed(args.seed)
-    torch.manual_seed(args.seed)
 
     main(env, args)