Add actor loss coefficient hyperparameter to A2C

Omegastick · Omegastick · commit 9a0cfb08b6fe · 2019-06-07T23:01:46.000+09:00
diff --git a/example/gym_client.cpp b/example/gym_client.cpp
@@ -131,7 +131,7 @@ int main(int argc, char *argv[])
     std::unique_ptr<Algorithm> algo;
     if (algorithm == "A2C")
     {
-        algo = std::make_unique<A2C>(policy, value_loss_coef, entropy_coef, learning_rate);
+        algo = std::make_unique<A2C>(policy, actor_loss_coef, value_loss_coef, entropy_coef, learning_rate);
     }
     else if (algorithm == "PPO")
     {
diff --git a/example/lib/libzmq b/example/lib/libzmq
@@ -1 +1 @@
-Subproject commit 7d2631924792aaa1e3bef4715bf69f0bda3ff481
+Subproject commit 178f9e3f3cacd7d7476045aff1b9756a6d4a64f6
diff --git a/include/cpprl/algorithms/a2c.h b/include/cpprl/algorithms/a2c.h
@@ -16,11 +16,12 @@ class A2C : public Algorithm
 {
   private:
     Policy &policy;
-    float value_loss_coef, entropy_coef, max_grad_norm, original_learning_rate;
+    float actor_loss_coef, value_loss_coef, entropy_coef, max_grad_norm, original_learning_rate;
     std::unique_ptr<torch::optim::RMSprop> optimizer;
 
   public:
     A2C(Policy &policy,
+        float actor_loss_coef,
         float value_loss_coef,
         float entropy_coef,
         float learning_rate,
diff --git a/src/algorithms/a2c.cpp b/src/algorithms/a2c.cpp
@@ -14,13 +14,15 @@
 namespace cpprl
 {
 A2C::A2C(Policy &policy,
+         float actor_loss_coef,
          float value_loss_coef,
          float entropy_coef,
          float learning_rate,
          float epsilon,
          float alpha,
          float max_grad_norm)
     : policy(policy),
+      actor_loss_coef(actor_loss_coef),
       value_loss_coef(value_loss_coef),
       entropy_coef(entropy_coef),
       max_grad_norm(max_grad_norm),
@@ -90,7 +92,7 @@ TEST_CASE("A2C")
         ActionSpace space{"Discrete", {2}};
         Policy policy(space, base);
         RolloutStorage storage(5, 2, {1}, space, 5, torch::kCPU);
-        A2C a2c(policy, 0.5, 1e-3, 0.001);
+        A2C a2c(policy, 1, 0.5, 1e-3, 0.001);
 
         // The reward is the action
         auto pre_game_probs = policy->get_probs(
@@ -160,7 +162,7 @@ TEST_CASE("A2C")
         ActionSpace space{"Discrete", {2}};
         Policy policy(space, base);
         RolloutStorage storage(5, 2, {1}, space, 5, torch::kCPU);
-        A2C a2c(policy, 0.5, 1e-7, 0.0001);
+        A2C a2c(policy, 1, 0.5, 1e-7, 0.0001);
 
         // The game is: If the action matches the input, give a reward of 1, otherwise -1
         auto pre_game_probs = policy->get_probs(

Original file line number	Diff line number	Diff line change
`@@ -131,7 +131,7 @@ int main(int argc, char *argv[])`
`131`	`131`	`std::unique_ptr<Algorithm> algo;`
`132`	`132`	`if (algorithm == "A2C")`
`133`	`133`	`{`
`134`		`- algo = std::make_unique<A2C>(policy, value_loss_coef, entropy_coef, learning_rate);`
	`134`	`+ algo = std::make_unique<A2C>(policy, actor_loss_coef, value_loss_coef, entropy_coef, learning_rate);`
`135`	`135`	`}`
`136`	`136`	`else if (algorithm == "PPO")`
`137`	`137`	`{`