- Development of the Q-learning AI:
- Development of the Monte-Carlo and optimization:
- Permanent contributor:
- Guillaume LOZENGUEZ - guillaume.lozenguez@imt-nord-europe.fr
Notre première version du Risky était basée sur un Q-Learning.
- Dernière version disponible au commit 6e91f01
Nous avons décidé de remplir le JSON de notre Q-Learning avec tout l'état du board actuel, afin de pouvoir jouer des millions d'entraînements par la suite, et d'avoir un Q-Learning très performant. Mais le nombre d'états possibles était beaucoup trop grand, et le temps d'entraînement de notre Q-Learning aurait été beaucoup trop long. Nous avons donc décidé par la suite de réduire les nos différents états, afin de réduire la taille de notre JSON.
Nous avons ensuite décidé de créer un Monte-Carlo, qui se chargera par la suite d'insérer des valeurs correctes dans le JSON de notre Q-Learning.
- Dernière version du MCTS disponible sur la branche mcts-latest
Les résultats de notre Monte-Carlo n'étant pas les résultats attendus, le temps des entraînements étaient beaucoup trop longs (Environ 5 secondes par parties) et il était donc quasiement impossible de remplir le JSON de notre Q-Learning, car les valeurs de nos différents états réapparaissent très rarement, voire jamais.
Notre projet, avec nos algorithmes de Q-Learning et de Monte-Carlo, étant tous deux fonctionnels, mais n'apportant pas de résultats assez satisfaisants lors du dernier jour du projet, nous avons donc décidé de réaliser notre propre algorithme de dernière minute, qui suit notre propre stratégie de jeu, afin d'avoir au moins une IA fonctionnelle, pouvant battre l'IA random, l'IA prof, et quelques IA des autres teams.
- Dernière version du projet sur la branche main