In this repository, several common reinforcement learning optimization algorithms will be implemented using Python.(notice: this projects only support discrete env)
.
├── __pycache__
│ ├── share_func.cpython-310.pyc
│ └── share_func.cpython-39.pyc
├── aap.log
├── configure.conf
├── ddpg
│ ├── __pycache__
│ │ └── ddpg.cpython-39.pyc
│ ├── ddpg.md
│ ├── ddpg.py
│ └── imgs
│ └── ddpg_algorithm.png
├── ddpg_main.py
├── dqn
│ ├── __pycache__
│ │ ├── dqn.cpython-310.pyc
│ │ ├── dqn.cpython-39.pyc
│ │ ├── trick.cpython-310.pyc
│ │ └── trick.cpython-39.pyc
│ ├── dqn.md
│ ├── dqn.py
│ ├── imgs
│ │ └── dqn_flow.jpg
│ └── trick.py
├── dqn_main.py
├── env
│ ├── __pycache__
│ │ ├── catcher.cpython-310.pyc
│ │ ├── catcher.cpython-39.pyc
│ │ ├── env.cpython-39.pyc
│ │ ├── flappy_bird.cpython-310.pyc
│ │ ├── flappy_bird.cpython-39.pyc
│ │ ├── pixelcopter.cpython-39.pyc
│ │ ├── pong.cpython-39.pyc
│ │ ├── puckworld.cpython-39.pyc
│ │ ├── raycastmaze.cpython-39.pyc
│ │ ├── snake.cpython-39.pyc
│ │ └── waterworld.cpython-39.pyc
│ ├── catcher.py
│ ├── env.py
│ ├── flappy_bird.py
│ ├── monsterkong.py
│ ├── pixelcopter.py
│ ├── pong.py
│ ├── puckworld.py
│ ├── raycastmaze.py
│ ├── snake.py
│ └── waterworld.py
├── gifs
│ ├── CartPole-v1_dqn_1727405099_21776.gif
│ ├── CartPole-v1_ppomp_1726804282_27852.gif
│ ├── FlappyBird_dqn_1727428679_2484.gif
│ ├── Pixelcopter_dqn_1727488404_34272.gif
│ ├── Pixelcopter_dqn_1727500616_34404.gif
│ ├── Pong_dqn_1727501417_33516.gif
│ └── readme.md
├── logger
│ └── logger.py
├── logs
│ └── readme.md
├── main.py
├── models
│ └── readme.md
├── pg
│ ├── __pycache__
│ │ └── pg.cpython-39.pyc
│ ├── pg.md
│ └── pg.py
├── pg_main.py
├── ppo
│ ├── __pycache__
│ │ ├── ppo.cpython-310.pyc
│ │ ├── ppo.cpython-38.pyc
│ │ ├── ppo.cpython-39.pyc
│ │ ├── relaybuffer.cpython-310.pyc
│ │ ├── relaybuffer.cpython-38.pyc
│ │ ├── relaybuffer.cpython-39.pyc
│ │ ├── trick.cpython-310.pyc
│ │ ├── trick.cpython-38.pyc
│ │ └── trick.cpython-39.pyc
│ ├── imgs
│ │ ├── clip_func.png
│ │ └── clip_func_range.png
│ ├── ppo.md
│ ├── ppo.py
│ ├── relaybuffer.py
│ └── trick.py
├── ppo_main.py
├── ppo_mp
│ ├── __pycache__
│ │ ├── ppo.cpython-38.pyc
│ │ ├── ppo.cpython-39.pyc
│ │ ├── relaybuffer.cpython-38.pyc
│ │ ├── relaybuffer.cpython-39.pyc
│ │ ├── trick.cpython-38.pyc
│ │ └── trick.cpython-39.pyc
│ ├── ppo.md
│ ├── ppo.py
│ └── trick.py
├── ppo_mp_main.py
├── pso
│ ├── __init__.py
│ ├── __pycache__
│ │ ├── __init__.cpython-38.pyc
│ │ └── pso.cpython-38.pyc
│ └── pso.py
├── readme.md
├── runs
│ └── readme.md
├── share_func.py
├── test_frame.ipynb
└── wandb
└── readme.md
24 directories, 89 files