Add ObservationNormalizer

Omegastick · Omegastick · commit 092d425b0ee5 · 2019-07-22T19:03:26.000+09:00
diff --git a/include/cpprl/observation_normalizer.h b/include/cpprl/observation_normalizer.h
@@ -0,0 +1,32 @@
+#pragma once
+
+#include <vector>
+
+#include <torch/torch.h>
+
+#include "cpprl/running_mean_std.h"
+
+namespace SingularityTrainer
+{
+class ObservationNormalizer
+{
+  private:
+    float clip;
+    RunningMeanStd rms;
+
+  public:
+    explicit ObservationNormalizer(int size, float clip = 10.);
+    ObservationNormalizer(const std::vector<float> &means,
+                          const std::vector<float> &variances,
+                          float clip = 10.);
+    explicit ObservationNormalizer(const std::vector<ObservationNormalizer> &others);
+
+    torch::Tensor process_observation(torch::Tensor observation);
+    std::vector<float> get_mean() const;
+    std::vector<float> get_variance() const;
+    void update(torch::Tensor observations);
+
+    inline float get_clip_value() const { return clip; }
+    inline int get_step_count() const { return rms.get_count(); }
+};
+}
diff --git a/include/cpprl/running_mean_std.h b/include/cpprl/running_mean_std.h
@@ -0,0 +1,31 @@
+#pragma once
+
+#include <vector>
+
+#include <torch/torch.h>
+
+namespace SingularityTrainer
+{
+// https://github.com/openai/baselines/blob/master/baselines/common/running_mean_std.py
+class RunningMeanStd
+{
+  private:
+    float count;
+    torch::Tensor mean, variance;
+
+    void update_from_moments(torch::Tensor batch_mean,
+                             torch::Tensor batch_var,
+                             int batch_count);
+
+  public:
+    explicit RunningMeanStd(int size);
+    RunningMeanStd(std::vector<float> means, std::vector<float> variances);
+
+    void update(torch::Tensor observation);
+
+    inline int get_count() const { return static_cast<int>(count); }
+    inline torch::Tensor get_mean() const { return mean.clone(); }
+    inline torch::Tensor get_variance() const { return variance.clone(); }
+    inline void set_count(int count) { this->count = count + 1e-8; }
+};
+}
diff --git a/src/CMakeLists.txt b/src/CMakeLists.txt
@@ -1,12 +1,16 @@
 target_sources(cpprl
     PRIVATE
     ${CMAKE_CURRENT_LIST_DIR}/storage.cpp
+    ${CMAKE_CURRENT_LIST_DIR}/observation_normalizer.cpp
+    ${CMAKE_CURRENT_LIST_DIR}/running_mean_std.cpp
 )
 
 if (CPPRL_BUILD_TESTS)
     target_sources(cpprl_tests
         PRIVATE
         ${CMAKE_CURRENT_LIST_DIR}/storage.cpp
+        ${CMAKE_CURRENT_LIST_DIR}/observation_normalizer.cpp
+        ${CMAKE_CURRENT_LIST_DIR}/running_mean_std.cpp
     )
 endif (CPPRL_BUILD_TESTS)
 
diff --git a/src/observation_normalizer.cpp b/src/observation_normalizer.cpp
@@ -0,0 +1,188 @@
+#include <torch/torch.h>
+
+#include "cpprl/observation_normalizer.h"
+#include "cpprl/running_mean_std.h"
+#include "third_party/doctest.h"
+
+namespace SingularityTrainer
+{
+ObservationNormalizer::ObservationNormalizer(int size, float clip)
+    : clip(clip),
+      rms(size) {}
+
+ObservationNormalizer::ObservationNormalizer(const std::vector<float> &means,
+                                             const std::vector<float> &variances,
+                                             float clip)
+    : clip(clip),
+      rms(means, variances){}
+
+ObservationNormalizer::ObservationNormalizer(const std::vector<ObservationNormalizer> &others)
+    : clip(0),
+      rms(1)
+{
+    // Calculate mean clip
+    for (const auto &other : others)
+    {
+        clip += other.get_clip_value();
+    }
+    clip /= others.size();
+
+    // Calculate mean mean
+    std::vector<float> mean_means(others[0].get_mean().size(), 0);
+    for (const auto &other : others)
+    {
+        auto other_mean = other.get_mean();
+        for (unsigned int i = 0; i < mean_means.size(); ++i)
+        {
+            mean_means[i] += other_mean[i];
+        }
+    }
+    for (auto &mean : mean_means)
+    {
+        mean /= others.size();
+    }
+
+    // Calculate mean variances
+    std::vector<float> mean_variances(others[0].get_variance().size(), 0);
+    for (const auto &other : others)
+    {
+        auto other_variances = other.get_variance();
+        for (unsigned int i = 0; i < mean_variances.size(); ++i)
+        {
+            mean_variances[i] += other_variances[i];
+        }
+    }
+    for (auto &variance : mean_variances)
+    {
+        variance /= others.size();
+    }
+
+    rms = RunningMeanStd(mean_means, mean_variances);
+
+    int total_count = std::accumulate(others.begin(), others.end(), 0,
+                                      [](int accumulator, const ObservationNormalizer &other) {
+                                          return accumulator + other.get_step_count();
+                                      });
+    rms.set_count(total_count);
+}
+
+torch::Tensor ObservationNormalizer::process_observation(torch::Tensor observation)
+{
+    auto normalized_obs = (observation - rms.get_mean()) /
+                          torch::sqrt(rms.get_variance() + 1e-8);
+    return torch::clamp(normalized_obs, -clip, clip);
+}
+
+std::vector<float> ObservationNormalizer::get_mean() const
+{
+    auto mean = rms.get_mean();
+    return std::vector<float>(mean.data<float>(), mean.data<float>() + mean.numel());
+}
+
+std::vector<float> ObservationNormalizer::get_variance() const
+{
+    auto variance = rms.get_variance();
+    return std::vector<float>(variance.data<float>(), variance.data<float>() + variance.numel());
+}
+
+void ObservationNormalizer::update(torch::Tensor observations)
+{
+    rms.update(observations);
+}
+
+TEST_CASE("ObservationNormalizer")
+{
+    SUBCASE("Clips values correctly")
+    {
+        ObservationNormalizer normalizer(7, 1);
+        float observation_array[] = {-1000, -100, -10, 0, 10, 100, 1000};
+        auto observation = torch::from_blob(observation_array, {7});
+        auto processed_observation = normalizer.process_observation(observation);
+
+        auto has_too_large_values = (processed_observation > 1).any().item().toBool();
+        auto has_too_small_values = (processed_observation < -1).any().item().toBool();
+        DOCTEST_CHECK(!has_too_large_values);
+        DOCTEST_CHECK(!has_too_small_values);
+    }
+
+    SUBCASE("Normalizes values correctly")
+    {
+        ObservationNormalizer normalizer(5);
+
+        float obs_1_array[] = {-10., 0., 5., 3.2, 0.};
+        float obs_2_array[] = {-5., 2., 4., 3.7, -3.};
+        float obs_3_array[] = {1, 2, 3, 4, 5};
+        auto obs_1 = torch::from_blob(obs_1_array, {5});
+        auto obs_2 = torch::from_blob(obs_2_array, {5});
+        auto obs_3 = torch::from_blob(obs_3_array, {5});
+
+        normalizer.update(obs_1);
+        normalizer.update(obs_2);
+        normalizer.update(obs_3);
+        auto processed_observation = normalizer.process_observation(obs_3);
+
+        DOCTEST_CHECK(processed_observation[0].item().toFloat() == doctest::Approx(1.26008659));
+        DOCTEST_CHECK(processed_observation[1].item().toFloat() == doctest::Approx(0.70712887));
+        DOCTEST_CHECK(processed_observation[2].item().toFloat() == doctest::Approx(-1.2240818));
+        DOCTEST_CHECK(processed_observation[3].item().toFloat() == doctest::Approx(1.10914509));
+        DOCTEST_CHECK(processed_observation[4].item().toFloat() == doctest::Approx(1.31322402));
+    }
+
+    SUBCASE("Loads mean and variance from constructor correctly")
+    {
+        ObservationNormalizer normalizer({1, 2, 3}, {4, 5, 6});
+
+        auto mean = normalizer.get_mean();
+        auto variance = normalizer.get_variance();
+        DOCTEST_CHECK(mean[0] == doctest::Approx(1));
+        DOCTEST_CHECK(mean[1] == doctest::Approx(2));
+        DOCTEST_CHECK(mean[2] == doctest::Approx(3));
+        DOCTEST_CHECK(variance[0] == doctest::Approx(4));
+        DOCTEST_CHECK(variance[1] == doctest::Approx(5));
+        DOCTEST_CHECK(variance[2] == doctest::Approx(6));
+    }
+
+    SUBCASE("Is constructed from other normalizers correctly")
+    {
+        std::vector<ObservationNormalizer> normalizers;
+        for (int i = 0; i < 3; ++i)
+        {
+            normalizers.push_back(ObservationNormalizer(3));
+            for (int j = 0; j <= i; ++j)
+            {
+                normalizers[i].update(torch::rand({3}));
+            }
+        }
+
+        ObservationNormalizer combined_normalizer(normalizers);
+
+        std::vector<std::vector<float>> means;
+        std::transform(normalizers.begin(), normalizers.end(), std::back_inserter(means),
+                       [](const ObservationNormalizer &normalizer) { return normalizer.get_mean(); });
+        std::vector<std::vector<float>> variances;
+        std::transform(normalizers.begin(), normalizers.end(), std::back_inserter(variances),
+                       [](const ObservationNormalizer &normalizer) { return normalizer.get_variance(); });
+
+        std::vector<float> mean_means;
+        for (int i = 0; i < 3; ++i)
+        {
+            mean_means.push_back((means[0][i] + means[1][i] + means[2][i]) / 3);
+        }
+        std::vector<float> mean_variances;
+        for (int i = 0; i < 3; ++i)
+        {
+            mean_variances.push_back((variances[0][i] + variances[1][i] + variances[2][i]) / 3);
+        }
+
+        auto actual_mean_means = combined_normalizer.get_mean();
+        auto actual_mean_variances = combined_normalizer.get_variance();
+
+        for (int i = 0; i < 3; ++i)
+        {
+            DOCTEST_CHECK(actual_mean_means[i] == doctest::Approx(mean_means[i]));
+            DOCTEST_CHECK(actual_mean_variances[i] == doctest::Approx(actual_mean_variances[i]));
+        }
+        DOCTEST_CHECK(combined_normalizer.get_step_count() == 6);
+    }
+}
+}
diff --git a/src/running_mean_std.cpp b/src/running_mean_std.cpp
@@ -0,0 +1,86 @@
+#include <torch/torch.h>
+
+#include "cpprl/running_mean_std.h"
+#include "third_party/doctest.h"
+
+namespace SingularityTrainer
+{
+RunningMeanStd::RunningMeanStd(int size)
+    : count(1e-4),
+      mean(torch::zeros({size})),
+      variance(torch::ones({size})) {}
+
+RunningMeanStd::RunningMeanStd(std::vector<float> means, std::vector<float> variances)
+    : count(1e-4),
+      mean(torch::from_blob(means.data(), {static_cast<long>(means.size())})
+               .clone()),
+      variance(torch::from_blob(variances.data(), {static_cast<long>(variances.size())})
+                   .clone()) {}
+
+void RunningMeanStd::update(torch::Tensor observation)
+{
+    observation = observation.reshape({-1, mean.size(0)});
+    auto batch_mean = observation.mean(0);
+    auto batch_var = observation.var(0, false, false);
+    auto batch_count = observation.size(0);
+
+    update_from_moments(batch_mean, batch_var, batch_count);
+}
+
+void RunningMeanStd::update_from_moments(torch::Tensor batch_mean,
+                                         torch::Tensor batch_var,
+                                         int batch_count)
+{
+    auto delta = batch_mean - mean;
+    float total_count = count + batch_count;
+
+    mean = mean + delta * batch_count / total_count;
+    auto m_a = variance * count;
+    auto m_b = batch_var * batch_count;
+    auto m2 = m_a + m_b + torch::pow(delta, 2) * count * batch_count / total_count;
+    variance = m2 / total_count;
+    count = total_count;
+}
+
+TEST_CASE("RunningMeanStd")
+{
+    SUBCASE("Calculates mean and variance correctly")
+    {
+        RunningMeanStd rms(5);
+        auto observations = torch::rand({3, 5});
+        rms.update(observations[0]);
+        rms.update(observations[1]);
+        rms.update(observations[2]);
+
+        auto expected_mean = observations.mean(0);
+        auto expected_variance = observations.var(0, false, false);
+
+        auto actual_mean = rms.get_mean();
+        auto actual_variance = rms.get_variance();
+
+        for (int i = 0; i < 5; ++i)
+        {
+            DOCTEST_CHECK(expected_mean[i].item().toFloat() ==
+                          doctest::Approx(actual_mean[i].item().toFloat())
+                              .epsilon(0.001));
+            DOCTEST_CHECK(expected_variance[i].item().toFloat() ==
+                          doctest::Approx(actual_variance[i].item().toFloat())
+                              .epsilon(0.001));
+        }
+    }
+
+    SUBCASE("Loads mean and variance from constructor correctly")
+    {
+        RunningMeanStd rms({1, 2, 3}, {4, 5, 6});
+
+        auto mean = rms.get_mean();
+        auto variance = rms.get_variance();
+        DOCTEST_CHECK(mean[0].item().toFloat() == doctest::Approx(1));
+        DOCTEST_CHECK(mean[1].item().toFloat() == doctest::Approx(2));
+        DOCTEST_CHECK(mean[2].item().toFloat() == doctest::Approx(3));
+        DOCTEST_CHECK(variance[0].item().toFloat() == doctest::Approx(4));
+        DOCTEST_CHECK(variance[1].item().toFloat() == doctest::Approx(5));
+        DOCTEST_CHECK(variance[2].item().toFloat() == doctest::Approx(6));
+    }
+}
+}
diff --git a/src/storage.cpp b/src/storage.cpp