update

Morvan Zhou · Morvan Zhou · commit 4be74be207db · 2017-08-14T17:57:01.000+10:00
diff --git a/contents/12_Proximal_Policy_Optimization/DPPO.py b/contents/12_Proximal_Policy_Optimization/DPPO.py
@@ -125,7 +125,7 @@ def work(self):
                 s = s_
                 ep_r += r
 
-                GLOBAL_UPDATE_COUNTER += 1                      # count to minimum batch size
+                GLOBAL_UPDATE_COUNTER += 1               # count to minimum batch size, no need to wait other workers
                 if t == EP_LEN - 1 or GLOBAL_UPDATE_COUNTER >= MIN_BATCH_SIZE:
                     v_s_ = self.ppo.get_v(s_)
                     discounted_r = []                           # compute discounted reward