Saving and loading agent data with pickling.

ManuelMeraz · ManuelMeraz · commit d9a3449e803d · 2019-10-13T07:08:58.000-07:00
diff --git a/rl/tictactoe/main.py b/rl/tictactoe/main.py
@@ -176,7 +176,7 @@ def learn(builder: AgentBuilder, num_games: int, num_agents: int, policy_filenam
         filename = policy_filename
     else:
         timestamp = time.strftime("%Y%m%d_%H%M%S")
-        filename = os.getcwd() + "/" + timestamp + ".json"
+        filename = os.getcwd() + "/" + timestamp + ".pickle"
 
     save_learning_agent(main_agent, filename=filename)
 
diff --git a/rl/tictactoe/optimal.pickle b/rl/tictactoe/optimal.pickle
diff --git a/rl/utils/io_utils.py b/rl/utils/io_utils.py
@@ -1,8 +1,5 @@
 #! /usr/bin/env python3
-import json
-from collections import defaultdict, Counter
-
-from rl.reprs import Value
+import pickle
 
 
 def load_learning_agent(filename: str):
@@ -12,25 +9,10 @@ def load_learning_agent(filename: str):
     :return: The state value mapping
     """
 
-    state_values = defaultdict(Value)
-    transitions = defaultdict(Counter)
-    with open(filename, "r") as f:
-        data = json.load(f)
-        state_values_data = data["state_values"]
-        transitions_data = data["transitions"]
-
-    for state_value in state_values_data:
-        state_values[tuple(state_value[0])] = Value(**state_value[1])
-
-    for state_action_counts in transitions_data:
-        state_action_pair = tuple(state_action_counts[0])
-
-        for state_count in state_action_counts[1]:
-            counts = Counter()
-            counts[tuple(state_count[0])] = state_count[1]
-            transitions[state_action_pair] += counts
+    with open(filename, "rb") as f:
+        data = pickle.load(f)
 
-    return state_values, transitions
+    return data["state_values"], data["transitions"]
 
 
 def save_learning_agent(agent, filename: str):
@@ -40,19 +22,10 @@ def save_learning_agent(agent, filename: str):
     :param filename: The name of the file to write to
     """
 
-    data = {"state_values": [], "transitions": []}
-
-    for state, value in agent.state_values.items():
-        if value.count > 0:
-            data["state_values"].append([[float(num) for num in state], value.__dict__])
-
-    for state_action, transition_counts in agent.transitions.items():
-        transition = [[float(num) for num in state_action], []]
-        for state, count in transition_counts.items():
-            state_counts = [[float(num) for num in state], count]
-            transition[1].append(state_counts)
-
-        data["transitions"].append(transition)
+    data = {
+        "state_values": agent.state_values,
+        "transitions": agent.transitions
+    }
 
-    with open(filename, "w") as f:
-        json.dump(data, f, sort_keys=True, indent=2)
+    with open(filename, "ab") as f:
+        pickle.dump(data, f)