QuantEcon · jstac · Sep 25, 2015 · Sep 25, 2015 · Sep 25, 2015
diff --git a/quantecon/markov/ddp.py b/quantecon/markov/ddp.py
@@ -1,4 +1,4 @@
-"""
+r"""
 Filename: ddp.py
 
 Author: Daisuke Oyama
@@ -141,7 +141,7 @@ class DiscreteDP(object):
 
        with parameters:
 
-       * length L reward vector R,
+       * length L reward vector `R`,
        * L x n transition probability array `Q`,
        * discount factor `beta`,
        * length L array `s_indices`, and
@@ -451,8 +451,8 @@ def _check_action_feasibility(self):
 
     def RQ_sigma(self, sigma):
         """
-        Given a policy `sigma`, return the reward vector R_sigma and the
-        transition probability matrix Q_sigma.
+        Given a policy `sigma`, return the reward vector `R_sigma` and
+        the transition probability matrix `Q_sigma`.
 
         Parameters
         ----------
@@ -483,7 +483,7 @@ def RQ_sigma(self, sigma):
     def bellman_operator(self, v, Tv=None, sigma=None):
         """
         The Bellman operator, which computes and returns the updated
-        value function Tv for a value function v.
+        value function `Tv` for a value function `v`.
 
         Parameters
         ----------
@@ -538,7 +538,7 @@ def compute_greedy(self, v, sigma=None):
             Value function vector, of length n.
 
         sigma : ndarray(int, ndim=1), optional(default=None)
-            Optional output array for sigma.
+            Optional output array for `sigma`.
 
         Returns
         -------
@@ -708,12 +708,12 @@ def value_iteration(self, v_init=None, epsilon=None, max_iter=None):
         sigma = self.compute_greedy(v)
 
         res = DPSolveResult(v=v,
-                             sigma=sigma,
-                             num_iter=num_iter,
-                             mc=self.controlled_mc(sigma),
-                             method='value iteration',
-                             epsilon=epsilon,
-                             max_iter=max_iter)
+                            sigma=sigma,
+                            num_iter=num_iter,
+                            mc=self.controlled_mc(sigma),
+                            method='value iteration',
+                            epsilon=epsilon,
+                            max_iter=max_iter)
 
         return res
 
@@ -745,11 +745,11 @@ def policy_iteration(self, v_init=None, max_iter=None):
         num_iter = i + 1
 
         res = DPSolveResult(v=v_sigma,
-                             sigma=sigma,
-                             num_iter=num_iter,
-                             mc=self.controlled_mc(sigma),
-                             method='policy iteration',
-                             max_iter=max_iter)
+                            sigma=sigma,
+                            num_iter=num_iter,
+                            mc=self.controlled_mc(sigma),
+                            method='policy iteration',
+                            max_iter=max_iter)
 
         return res
 
@@ -798,13 +798,13 @@ def midrange(z):
         num_iter = i + 1
 
         res = DPSolveResult(v=v,
-                             sigma=sigma,
-                             num_iter=num_iter,
-                             mc=self.controlled_mc(sigma),
-                             method='modified policy iteration',
-                             epsilon=epsilon,
-                             max_iter=max_iter,
-                             k=k)
+                            sigma=sigma,
+                            num_iter=num_iter,
+                            mc=self.controlled_mc(sigma),
+                            method='modified policy iteration',
+                            epsilon=epsilon,
+                            max_iter=max_iter,
+                            k=k)
 
         return res
 
@@ -820,7 +820,7 @@ def controlled_mc(self, sigma):
         Returns
         -------
         mc : MarkovChain
-            Controlled Markov Chain.
+            Controlled Markov chain.
 
         """
         _, Q_sigma = self.RQ_sigma(sigma)