policy-improvement

Here are 11 public repositories matching this topic...

antonio-f / Dynamic-Programming

Algorithms for Policy Evaluation, Estimation of Action Values, Policy Improvement, Policy Iteration, Truncated Policy Evaluation, Truncated Policy Iteration, Value Iteration . From Udacity's Deep Reinforcement Learning Nanodegree program.

reinforcement-learning openai-gym gym dynamic-programming policy-evaluation policy-iteration value-iteration bellman-equation frozenlake policy-improvement state-value-function action-value-function

Updated Apr 3, 2019
Jupyter Notebook

ariankhanjani / Frozen-Lake-Openai-Gym

Star

Implementation of RL Tabular Algorithms in Openai Gym Frozen-Lake Environment

machine-learning reinforcement-learning gym reinforcement-learning-algorithms policy-evaluation markov-decision-processes policy-iteration value-iteration frozenlake policy-improvement

Updated Jan 28, 2024
Jupyter Notebook

GiorgiaAuroraAdorni / reinforcement-learning

Star

Fourth assignment for Machine Learning course @USI19/20.

machine-learning reinforcement-learning dynamic-programming policy-evaluation markov-decision-processes policy-iteration policy-improvement

Updated Dec 6, 2019
Jupyter Notebook

alizindari / Reinforcement-Learning

Star

Implementation of several algorithms in RL based on Prof. sutton's book

reinforcement-learning deep-reinforcement-learning policy-iteration value-iteration bellman-equation k-armed-bandit temporal-difference policy-improvement montecarlo-methods

Updated Aug 20, 2021
Jupyter Notebook

ArevikKH / FrozenLake-Q-Learning-Agent

Star

A reinforcement learning agent trained using Q-Learning to solve OpenAI Gym’s FrozenLake environment. The project demonstrates value-based learning, policy improvement, and exploration strategies in a slippery gridworld setting.

python machine-learning reinforcement-learning ai openai-gym q-learning artificial-intelligence rl frozenlake exploration-strategy policy-improvement ai-engineer ai-engineering value-based-learning

Updated May 7, 2025
Python

bmarroc / reinforcement-learning

Star

Jupyter notebooks implementing Reinforcement Learning algorithms in Numpy and Tensorflow

monte-carlo q-learning epsilon-greedy policy-gradient sarsa dynamic-programming tdl policy-evaluation markov-decision-processes policy-iteration function-approximation bellman-equation policy-improvement

Updated Aug 21, 2025
Jupyter Notebook

Vvalejandro / dspy-lean-prover-hint-clipping

Star

🔍 Enhance iterative theorem proving with DSPy by comparing full oracle vs. clipped hints using a mock Lean verifier in this streamlined setup.

experiment evaluation program-synthesis dataset rl lean clipping variance-reduction ppo tool-use policy-improvement offline-rl dspy leandojo

Updated Jun 7, 2026
Python

Rui0828 / Grid-World-DRL

Star

A web-based interactive Grid World environment for learning and visualizing reinforcement learning algorithms including policy evaluation, policy improvement, and value iteration. Built with Flask backend implementing RL algorithms and JavaScript frontend for grid visualization.

javascript python docker flask reinforcement-learning web-application grid-world dynamic-programming policy-evaluation interactive-visualization value-iteration rl-algorithms policy-improvement educational-tool markov-decision-process

Updated Mar 13, 2025
JavaScript

Animesh-Chourey / Frozen-Lake

Star

Various reinforcement learning algorithms implemented on the frozen lake grid world.

reinforcement-learning q-learning sarsa policy-evaluation policy-iteration value-iteration model-based-reinforcement-learning policy-improvement frozen-lake

Updated Aug 29, 2022
Python

zyxsjdy / Solve-the-Gridworld-Problem-with-Reinforcement-Learning

Star

Based on the book --- Reinforcement Learning: An Introduction (2nd ed, 2018) by Sutton and Barto. For the Reinforcement Learning course Assignment 2 (see Gridworld Problem 1.pdf) at Memorial University of Newfoundland, Jul. 18, 2024

reinforcement-learning gridworld policy-iteration value-iteration bellman-equation monte-carlo-method policy-improvement iterative-policy-evaluation bellman-optimality-equation on-policy-mc-prediction on-policy-mc-with-exploring-starts off-policy-mc-prediction off-policy-mc-control on-policy-mc-control-without-exploring-starts

Updated May 3, 2026
Jupyter Notebook

SaurabhJalendra / Treasure-Hunt-in-the-Frozen-Lake-and-Optimizing-Movie-Recommendations-Using-Multi-Armed-Bandits

Star

This repository contains two reinforcement learning projects: "Treasure Hunt in the Frozen Lake," which navigates a modified FrozenLake using dynamic programming, and "Optimizing Movie Recommendations," which employs Multi-Armed Bandits to enhance user satisfaction.

python data-science machine-learning reinforcement-learning jupyter-notebook openai-gym dynamic-programming multi-armed-bandits exploration-exploitation policy-improvement movie-recommedation

Updated Feb 27, 2025
Jupyter Notebook

Improve this page

Add a description, image, and links to the policy-improvement topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the policy-improvement topic, visit your repo's landing page and select "manage topics."

Learn more

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

policy-improvement

Here are 11 public repositories matching this topic...

antonio-f / Dynamic-Programming

ariankhanjani / Frozen-Lake-Openai-Gym

GiorgiaAuroraAdorni / reinforcement-learning

alizindari / Reinforcement-Learning

ArevikKH / FrozenLake-Q-Learning-Agent

bmarroc / reinforcement-learning

Vvalejandro / dspy-lean-prover-hint-clipping

Rui0828 / Grid-World-DRL

Animesh-Chourey / Frozen-Lake

zyxsjdy / Solve-the-Gridworld-Problem-with-Reinforcement-Learning

SaurabhJalendra / Treasure-Hunt-in-the-Frozen-Lake-and-Optimizing-Movie-Recommendations-Using-Multi-Armed-Bandits

Improve this page

Add this topic to your repo