|
293 | 293 |
|
294 | 294 | [dqn-探索-集成](https://github.com/pranavkrishnamoorthi/dqn-exploration-ensemble)
|
295 | 295 |
|
| 296 | +[targeted-double-q-learning](https://github.com/alishiraliGit/targeted-double-q-learning) |
| 297 | + |
296 | 298 | [使用 OpenAI gym 环境训练 DQN 的简单脚本](https://github.com/eyalhagai12/simple_dqn)
|
297 | 299 |
|
298 | 300 | [DQN_AC](https://github.com/bvanbuskirk/DQN_AC)
|
|
452 | 454 |
|
453 | 455 | [利用“任何事物分割”模型进行通用视觉强化学习](https://github.com/wadiuvatzy/SAM-G)
|
454 | 456 |
|
| 457 | +[盲文识别](https://github.com/takaya-hirano-hayashibeLabo/braille-recognition) |
| 458 | + |
455 | 459 | [动作捕捉环境](https://github.com/hartikainen/mocap-environments)
|
456 | 460 |
|
457 | 461 |
|
|
537 | 541 |
|
538 | 542 | [专注于使用稳定基线 3方法和Gymnasium界面进行目标条件强化学习](https://github.com/Scilab-RL/Scilab-RL) - [其他](https://github.com/meppe/Scilab-rl)
|
539 | 543 |
|
| 544 | +[GUARD :通用统一安全强化学习开发基准](https://github.com/intelligent-control-lab/guard) |
| 545 | + |
540 | 546 | [d4rl-slim-benchmark](https://github.com/dtch1997/d4rl-slim-benchmark)
|
541 | 547 |
|
542 | 548 | [mujoco_test](https://github.com/Geryyy/mujoco_test)
|
|
675 | 681 |
|
676 | 682 | [从示例对象轨迹和预抓取中学习灵巧操作](https://github.com/ishaanshah15/TCDMdev)
|
677 | 683 |
|
| 684 | +[解决情境强化学习的新方法](https://github.com/rpanackal/rl-msc-pro) |
| 685 | + |
678 | 686 | [对于 safe_exploration 任务,既需要数据多样性,又需要在线训练安全保障](https://github.com/JackQin007/Safe_Exploration)
|
679 | 687 |
|
680 | 688 | [PyTorch 机器人运动学](https://github.com/UM-ARM-Lab/pytorch_kinematics)
|
|
739 | 747 |
|
740 | 748 | [自适应强化学习的表征学习](https://github.com/stevenabreu7/adaptiveRL2) - 使用可微分可塑性、状态空间模型和深度强化学习
|
741 | 749 |
|
742 |
| -[用示例代替奖励:通过递归分类进行基于示例的策略搜索 的 pytorch 实现](https://github.com/Ricky-Zhu/RCE) |
743 |
| - |
744 | 750 | [具有大型语言模型的辩证多机器人协作](https://github.com/MandiZhao/robot-collab)
|
745 | 751 |
|
746 | 752 | [通过多任务策略提炼解决任务干扰](https://github.com/AndreiLix/mutlitask_policy_distillation)
|
|
791 | 797 |
|
792 | 798 | [机器人环境的安全迁移学习](https://github.com/f-krone/SafeTransferLearningInChangingEnvironments)
|
793 | 799 |
|
794 |
| -[基于 DeepMind Control Suite 实现的具有变化奖励和动态的上下文 MDP](https://github.com/SAIC-MONTREAL/contextual-control-suite) |
795 |
| - |
796 | 800 | [SIMCSUM](https://github.com/timkolber/mtl_sum)
|
797 | 801 |
|
798 | 802 | [研究基于模型的强化学习中的不确定性量化](https://github.com/aidanscannell/unc-mbrl)
|
|
814 | 818 | [稳定神经近似的逆向经验重放](https://github.com/google-research/look-back-when-surprised) - [其他](https://github.com/llv22/google-research-forward)
|
815 | 819 |
|
816 | 820 |
|
| 821 | +### 奖励 |
| 822 | + |
| 823 | +[规律性作为自由游戏的内在奖励](https://github.com/martius-lab/rair-mbrl) |
| 824 | + |
| 825 | +[基于 DeepMind Control Suite 实现的具有变化奖励和动态的上下文 MDP](https://github.com/SAIC-MONTREAL/contextual-control-suite) |
| 826 | + |
| 827 | +[用示例代替奖励:通过递归分类进行基于示例的策略搜索 的 pytorch 实现](https://github.com/Ricky-Zhu/RCE) |
| 828 | + |
| 829 | + |
817 | 830 | ## 毕业论文 <span id="contest"></span>
|
818 | 831 |
|
819 | 832 | [利用 MARL 技术分解大动作空间来加速学习](https://github.com/QuimMarset/TFM)
|
|
858 | 871 |
|
859 | 872 | [cs285](https://github.com/johnviljoen/cs285)
|
860 | 873 |
|
| 874 | +[CS 285 最终项目:基于连续时间模型的强化学习中的动态学习的神经常微分方程](https://github.com/ZekaiWang04/cs285_proj) |
| 875 | + |
| 876 | +[交互式机器人学习课程项目](https://github.com/LeonardoWjq/NP-RAM) |
| 877 | + |
| 878 | +[CS285 最终项目](https://github.com/skrider/draftsman) |
| 879 | + |
| 880 | +[CS285](https://github.com/ayton-zhang/CS285) |
| 881 | + |
861 | 882 | [CS 285 作业](https://github.com/LeslieTrue/cs285_fall22_hw_sol)
|
862 | 883 |
|
863 | 884 | [机器人相关课程](https://github.com/waris8/courses)
|
|
866 | 887 |
|
867 | 888 | [CMU 16-831 机器人学习简介的作业](https://github.com/chaitanya1chawla/16831_F23_HW)
|
868 | 889 |
|
| 890 | +[自己实现的深度强化学习算法](https://github.com/minghongx/deeprl) |
| 891 | + |
869 | 892 | [CS 285 最终项目:双人不完美信息合作博弈的强化学习](https://github.com/edwardneo/collaboration-strategy)
|
870 | 893 |
|
871 | 894 | [实用机器学习与深度学习](https://github.com/dinarayaryeva/pml-dl)
|
|
1037 | 1060 |
|
1038 | 1061 | [与 ROS NIAS-API 类似的 CoppeliaSim 机器人模拟器的绑定](https://github.com/knowledgetechnologyuhh/nicol_coppeliasim)
|
1039 | 1062 |
|
| 1063 | +[实现 DDPG 进行简单的倒水](https://github.com/yashas-salankimatt/csce642-finalproj) |
| 1064 | + |
1040 | 1065 | [竞技体育的两步法:以击剑为例](https://github.com/YCK1130/IMRL-HF)
|
1041 | 1066 |
|
1042 | 1067 | [曲棍球环境中的强化学习](https://github.com/JSteegmueller/The-Q-Learners)
|
|
1162 | 1187 |
|
1163 | 1188 | [将 URDF 模型转换为 MJCF 模型的实用工具](https://github.com/ipa320/urdf2mjcf)
|
1164 | 1189 |
|
| 1190 | +[基于 Web 的模拟环境可视化工具](https://github.com/NVlabs/sim-web-visualizer) |
| 1191 | + |
1165 | 1192 | [一个基于 C++ 的批处理环境池 EnvPool](https://github.com/sail-sg/envpool) - 基于 C++ 的高性能并行环境执行引擎(矢量化环境),适用于通用 RL 环境
|
1166 | 1193 |
|
1167 | 1194 | [用于强化学习的机器人模拟环境集合](https://github.com/Farama-Foundation/Gymnasium-Robotics)
|
|
1286 | 1313 |
|
1287 | 1314 | [RoboDog项目](https://github.com/Stblacq/robodog)
|
1288 | 1315 |
|
| 1316 | +[network-plasticity](https://github.com/arjunpat/network-plasticity) |
| 1317 | + |
1289 | 1318 | [many_gamma](https://github.com/samlobel/many_gamma)
|
1290 | 1319 |
|
1291 | 1320 | [231A_project](https://github.com/johnviljoen/231A_project)
|
|
1294 | 1323 |
|
1295 | 1324 | [强化学习研究](https://github.com/fredsonaguiar/bang_bang_mountain_car)
|
1296 | 1325 |
|
| 1326 | +[rl_learning](https://github.com/yuxuehui/rl_learning) |
| 1327 | + |
1297 | 1328 | [DPC_for_robotics](https://github.com/pnnl/DPC_for_robotics)
|
1298 | 1329 |
|
1299 | 1330 | [talar-openreview-fork](https://github.com/ezhang7423/talar-openreview-fork)
|
|
0 commit comments