thomasw21
diff --git a/‎Figure_1.png
-91.7 KB b/‎Figure_1.png
-91.7 KB
diff --git a/‎Figure_2.png
-202 KB b/‎Figure_2.png
-202 KB
diff --git a/‎Figure_3.png
-65.7 KB b/‎Figure_3.png
-65.7 KB
diff --git a/‎IRL/GradientIRL/main.py
Lines changed: 14 additions & 16 deletions b/‎IRL/GradientIRL/main.py
Lines changed: 14 additions & 16 deletions
diff --git a/‎utils/reward.py
Lines changed: 23 additions & 10 deletions b/‎utils/reward.py
Lines changed: 23 additions & 10 deletions
@@ -114,23 +114,21 @@ def plot_reward(reward,title):
 plt.show()
 '''
 
+girl = irl.GIRL(reward, policy)
+trajs = girl.import_data(data)
+#girl.compute_jacobian()
+#print(girl.jacobian)
+alphas = girl.solve(trajs)
+
+# plt.plot(alphas)
 # =============================================================================
-# girl = irl.GIRL(reward, policy)
-# trajs = girl.import_data(data)
-# #girl.compute_jacobian()
-# #print(girl.jacobian)
-# alphas = girl.solve(trajs)
-# 
-# # plt.plot(alphas)
-# # =============================================================================
-# #plt.show()
-# 
-# #plot(alphas)
+#plt.show()
+
+#plot(alphas)
+
+reward.set_params(alphas)
 # 
-# reward.set_params(alphas)
-# # 
-# reward.export_to_file(write_path_girl)
-# =============================================================================
+reward.export_to_file(write_path_girl)
 
 reward.import_from_file(write_path_girl)
 
@@ -140,7 +138,7 @@ def plot_reward(reward,title):
 f_sp = irl.GIRL(reward_sp, policy)
 K0=10e4
 eps=10e-15 #not working for now
-mu=0.5
+mu=0.5  
 
 girl_self_paced = Self_Paced(f_sp,K0,eps,mu)
 trajs = girl_self_paced.import_data(data)
 
@@ -25,25 +25,38 @@ def __init__(self, dx, dv, env):
                                       [0., 0.5*(self.lv/self.dv)**2]])) 
         self.params = np.ones(dx * dv)
         self.params /=np.linalg.norm(self.params,1)
+        
+        self.centers = np.zeros((dx*dv,2))
+        self.fill_centers()
 # =============================================================================
 #         self.params = np.zeros(dx*dv)
 # =============================================================================
         self.env = env
+        
+    def fill_centers(self):
+        for i in range(self.dx):
+            self.centers[i*self.dv:(i+1)*self.dv,0] += i / (self.dx-1) * self.lx - self.zx 
+        for j in range(self.dv):
+            self.centers[j::self.dv,1] += j / (self.dv-1) * self.lv - self.zv
 
     def value(self, state, action):
-        r = 0.
-        for idx in range(self.dx*self.dv):
-            r += self.params[idx] * self.basis(state, idx)
+# =============================================================================
+#         r = 0.
+#         for idx in range(self.dx*self.dv):
+#             r += self.params[idx] * self.basis(state, idx)
+# =============================================================================
+        r=np.dot(self.params,self.basis2(state))
         return r
 
+    def basis2(self,state):
+        state_normalized = state - self.centers
+        
+        result = np.einsum('ij,ij->i', np.dot(state_normalized, self.sigma_inv), state_normalized)
+        return np.exp(-result/2)
+    
     def basis(self, state, idx):
-        j = idx % self.dv
-        i = (idx-j)//self.dv
-        x, v = state
-        xi = i / (self.dx-1) * self.lx - self.zx 
-        vj = j / (self.dv-1) * self.lv - self.zv
-        s = np.array([x, v])
-        si = np.array([xi, vj])
+        s = state
+        si = self.centers[idx] 
         return np.exp(-np.dot((s - si), np.dot(self.sigma_inv, (s - si))))
 
     def partial_value(self, state, action, idx):