erickTornero · erickTornero · Jan 24, 2026 · Jan 24, 2026 · Jan 24, 2026 · Jan 24, 2026
diff --git a/.github/workflows/lint_build.yaml b/.github/workflows/lint_build.yaml
@@ -19,5 +19,5 @@ jobs:
       - name: Build release distributions
         run: |
           # NOTE: put your own distribution build steps here.
-          python -m pip install build
-          python -m build
+          python -m pip install uv
+          python -m uv build
diff --git a/Readme.md b/Readme.md
@@ -15,30 +15,39 @@ The goal of this repository is to learn a little more about reinforcement learni
 
 ## Getting Started
 
+### Install
+
+Please [install uv](https://docs.astral.sh/uv/getting-started/installation/#standalone-installer)
+
+Then install the project
+```
+uv sync
+```
+
 ### Training
 
 Example: To train the Reinforce algorithm, use the following command:
 ```
-python scripts/launch.py --train --config configs/reinforce.yaml
+uv run rl-runner --train --config configs/reinforce.yaml
 ```
 You can customize the training parameters, such as the number of episodes. For example, to set the maximum number of training episodes to 500:
 
 ```
-python scripts/launch.py --train --config configs/reinforce.yaml trainer.max_episodes=500
+uv run rl-runner --train --config configs/reinforce.yaml trainer.max_episodes=500
 ```
 
 ### Evaluation
 
 To evaluate your models, use the same launch.py script but with the --test flag. You'll also need to specify the configuration file and the checkpoint from the outputs folder. Here’s an example:
 
 ```
-python scripts/launch.py --test --config outputs/reinforce-discrete/../parsed.yaml --resume=outputs/reinforce-discrete/.../checkpoint.ckpt
+uv run rl-runner --test --config outputs/reinforce-discrete/../parsed.yaml --resume=outputs/reinforce-discrete/.../checkpoint.ckpt
 ```
 
 By default, this command will print the cumulative reward for each episode. If you'd like to render the environment and save a video, add the following options:
 
 ```
-python scripts/launch.py --test --config outputs/reinforce-discrete/../parsed.yaml --resume=outputs/reinforce-discrete/.../checkpoint.ckpt system.environment.render=True --save-video
+uv run rl-runner --test --config outputs/reinforce-discrete/../parsed.yaml --resume=outputs/reinforce-discrete/.../checkpoint.ckpt system.environment.render=True --save-video
 ```
 
 ## Contributions

diff --git a/pyproject.toml b/pyproject.toml
@@ -0,0 +1,96 @@
+[build-system]
+requires = ["hatchling"]
+build-backend = "hatchling.build"
+
+[tool.uv]
+index-url = "https://pypi.org/simple"
+[tool.uv.sources]
+torch = { index = "pytorch" }
+torchvision = { index = "pytorch" }
+
+[[tool.uv.index]]
+name = "pytorch"
+url = "https://download.pytorch.org/whl/cu124"
+explicit = true
+
+[project]
+name = "rl-baselines"
+version = "0.0.1"
+description = "Implementations of Reinforcement Learning algorithms as baselines in Pytorch"
+readme = "Readme.md"
+authors = [
+    { name = "Erick T", email = "erickdeivy01@gmail.com" },
+]
+classifiers = [
+    "Programming Language :: Python :: 3",
+    "Programming Language :: Python :: 3.12",
+]
+requires-python = ">=3.12"
+dependencies = [
+    "omegaconf==2.3.0",
+    "torch==2.6.0",
+    "torchvision==0.21.0",
+    "torchaudio==2.6.0",
+    "lightning==2.6.0",
+    "tensordict==0.10.0",
+    "gymnasium[classic-control]==1.2.2",
+    "torchrl==0.10.1",
+    "opencv-python==4.12.0.88",
+    "tensorboardX==2.6.4",
+    "tensorboard==2.20.0",
+    "ale-py==0.11.2"
+]
+
+[project.optional-dependencies]
+runtime = [
+
+]
+dev = [
+    "ruff>=0.1.6",
+    "mypy>=1.7.0",
+    "types-PyYAML>=6.0.0",
+    "pre-commit>=3.6.0",
+    "ipython>=8.17.0",
+    "ipdb>=0.13.13",
+]
+docs = [
+    "mkdocs>=1.5.0",
+    "mkdocs-material>=9.4.0",
+    "mkdocstrings[python]>=0.24.0",
+]
+
+[project.urls]
+Homepage = "https://github.com/erickTornero/rl-baselines"
+Documentation = "https://github.com/erickTornero/rl-baselines"
+Repository = "https://github.com/erickTornero/rl-baselines"
+Issues = "https://github.com/erickTornero/rl-baselines/issues"
+
+[project.scripts]
+rl-runner = "rl_baselines.cli.launch:app"
+
+# Hatchling configuration
+[tool.hatch.build.targets.sdist]
+include = [
+    "/src",
+    "/Readme.md",
+]
+
+[tool.hatch.build.targets.wheel]
+packages = ["src/rl_baselines"]
+
+[dependency-groups]
+dev = [
+    "mypy>=1.17.1",
+    "pandas-stubs>=2.3.2.250926",
+    "pytest-asyncio>=1.1.0",
+    "pytest-cov>=6.2.1",
+    "pytest-mock>=3.14.1",
+    "ruff>=0.1.6",
+    "types-pymysql>=1.1.0.20250916",
+    "types-pyyaml>=6.0.0",
+]
+docs = [
+    "mkdocs>=1.6.1",
+    "mkdocs-material>=9.6.17",
+    "mkdocstrings[python]>=0.30.0",
+]
diff --git a/setup.py b/setup.py
diff --git a/rl_baselines/__init__.py → src/rl_baselines/__init__.py b/rl_baselines/__init__.py → src/rl_baselines/__init__.py
diff --git a/src/rl_baselines/cli/__init__.py b/src/rl_baselines/cli/__init__.py
diff --git a/scripts/launch.py → src/rl_baselines/cli/launch.py b/scripts/launch.py → src/rl_baselines/cli/launch.py
@@ -10,7 +10,8 @@
 
 import rl_baselines
 
-if __name__ == "__main__":
+
+def app():
     import argparse
 
     parser = argparse.ArgumentParser()
@@ -80,3 +81,7 @@
         model.test_rollout(save_video=args.save_video)
     else:
         raise NotImplementedError("")
+
+
+if __name__ == "__main__":
+    app()
diff --git a/rl_baselines/common/__init__.py → src/rl_baselines/common/__init__.py b/rl_baselines/common/__init__.py → src/rl_baselines/common/__init__.py
diff --git a/rl_baselines/common/custom_env_transforms.py → ...baselines/common/custom_env_transforms.py b/rl_baselines/common/custom_env_transforms.py → ...baselines/common/custom_env_transforms.py
diff --git a/rl_baselines/common/custom_envs.py → src/rl_baselines/common/custom_envs.py b/rl_baselines/common/custom_envs.py → src/rl_baselines/common/custom_envs.py
@@ -27,8 +27,12 @@ def make_custom_envs(
         env_class = getattr(cenvs, name)
         return env_class(*args, **kwargs)
     except Exception:
+        import ale_py
+        import gymnasium as gym
         from torchrl import envs
 
+        gym.register_envs(ale_py)
+
         if "render" in kwargs:
             render = kwargs.pop("render")
             if render:

diff --git a/rl_baselines/common/distributions.py → src/rl_baselines/common/distributions.py b/rl_baselines/common/distributions.py → src/rl_baselines/common/distributions.py
diff --git a/rl_baselines/common/firing.py → src/rl_baselines/common/firing.py b/rl_baselines/common/firing.py → src/rl_baselines/common/firing.py
diff --git a/rl_baselines/common/networks.py → src/rl_baselines/common/networks.py b/rl_baselines/common/networks.py → src/rl_baselines/common/networks.py
diff --git a/rl_baselines/common/preprocessing.py → src/rl_baselines/common/preprocessing.py b/rl_baselines/common/preprocessing.py → src/rl_baselines/common/preprocessing.py
diff --git a/rl_baselines/common/wrap_envs.py → src/rl_baselines/common/wrap_envs.py b/rl_baselines/common/wrap_envs.py → src/rl_baselines/common/wrap_envs.py
diff --git a/rl_baselines/data/__init__.py → src/rl_baselines/data/__init__.py b/rl_baselines/data/__init__.py → src/rl_baselines/data/__init__.py
diff --git a/rl_baselines/data/dummy_data.py → src/rl_baselines/data/dummy_data.py b/rl_baselines/data/dummy_data.py → src/rl_baselines/data/dummy_data.py
diff --git a/rl_baselines/environments/__init__.py → src/rl_baselines/environments/__init__.py b/rl_baselines/environments/__init__.py → src/rl_baselines/environments/__init__.py
diff --git a/rl_baselines/environments/cartpole.py → src/rl_baselines/environments/cartpole.py b/rl_baselines/environments/cartpole.py → src/rl_baselines/environments/cartpole.py
diff --git a/rl_baselines/environments/mountain_car.py → ...rl_baselines/environments/mountain_car.py b/rl_baselines/environments/mountain_car.py → ...rl_baselines/environments/mountain_car.py
diff --git a/rl_baselines/environments/pendulum.py → src/rl_baselines/environments/pendulum.py b/rl_baselines/environments/pendulum.py → src/rl_baselines/environments/pendulum.py
diff --git a/rl_baselines/systems/__init__.py → src/rl_baselines/systems/__init__.py b/rl_baselines/systems/__init__.py → src/rl_baselines/systems/__init__.py
diff --git a/rl_baselines/systems/base.py → src/rl_baselines/systems/base.py b/rl_baselines/systems/base.py → src/rl_baselines/systems/base.py
diff --git a/rl_baselines/systems/off_policy/__init__.py → ..._baselines/systems/off_policy/__init__.py b/rl_baselines/systems/off_policy/__init__.py → ..._baselines/systems/off_policy/__init__.py
diff --git a/rl_baselines/systems/off_policy/ddpg.py → src/rl_baselines/systems/off_policy/ddpg.py b/rl_baselines/systems/off_policy/ddpg.py → src/rl_baselines/systems/off_policy/ddpg.py
diff --git a/...aselines/systems/off_policy/dqn_pixels.py → ...aselines/systems/off_policy/dqn_pixels.py b/...aselines/systems/off_policy/dqn_pixels.py → ...aselines/systems/off_policy/dqn_pixels.py
diff --git a/rl_baselines/systems/off_policy/egreedy.py → ...l_baselines/systems/off_policy/egreedy.py b/rl_baselines/systems/off_policy/egreedy.py → ...l_baselines/systems/off_policy/egreedy.py
diff --git a/rl_baselines/systems/off_policy/losses.py → ...rl_baselines/systems/off_policy/losses.py b/rl_baselines/systems/off_policy/losses.py → ...rl_baselines/systems/off_policy/losses.py
diff --git a/rl_baselines/systems/off_policy/qlearning.py → ...baselines/systems/off_policy/qlearning.py b/rl_baselines/systems/off_policy/qlearning.py → ...baselines/systems/off_policy/qlearning.py
diff --git a/rl_baselines/systems/off_policy/sampler.py → ...l_baselines/systems/off_policy/sampler.py b/rl_baselines/systems/off_policy/sampler.py → ...l_baselines/systems/off_policy/sampler.py
diff --git a/rl_baselines/systems/off_policy/td3.py → src/rl_baselines/systems/off_policy/td3.py b/rl_baselines/systems/off_policy/td3.py → src/rl_baselines/systems/off_policy/td3.py
diff --git a/...lines/systems/policy_gradient/__init__.py → ...lines/systems/policy_gradient/__init__.py b/...lines/systems/policy_gradient/__init__.py → ...lines/systems/policy_gradient/__init__.py
diff --git a/...systems/policy_gradient/action_sampler.py → ...systems/policy_gradient/action_sampler.py b/...systems/policy_gradient/action_sampler.py → ...systems/policy_gradient/action_sampler.py
diff --git a/...selines/systems/policy_gradient/losses.py → ...selines/systems/policy_gradient/losses.py b/...selines/systems/policy_gradient/losses.py → ...selines/systems/policy_gradient/losses.py
diff --git a/...elines/systems/policy_gradient/modules.py → ...elines/systems/policy_gradient/modules.py b/...elines/systems/policy_gradient/modules.py → ...elines/systems/policy_gradient/modules.py
diff --git a/...systems/policy_gradient/ppo_continuous.py → ...systems/policy_gradient/ppo_continuous.py b/...systems/policy_gradient/ppo_continuous.py → ...systems/policy_gradient/ppo_continuous.py
diff --git a/...s/systems/policy_gradient/ppo_discrete.py → ...s/systems/policy_gradient/ppo_discrete.py b/...s/systems/policy_gradient/ppo_discrete.py → ...s/systems/policy_gradient/ppo_discrete.py
diff --git a/...s/policy_gradient/reinforce_continuous.py → ...s/policy_gradient/reinforce_continuous.py b/...s/policy_gradient/reinforce_continuous.py → ...s/policy_gradient/reinforce_continuous.py
diff --git a/...olicy_gradient/reinforce_continuous_ac.py → ...olicy_gradient/reinforce_continuous_ac.py b/...olicy_gradient/reinforce_continuous_ac.py → ...olicy_gradient/reinforce_continuous_ac.py
diff --git a/...gradient/reinforce_continuous_baseline.py → ...gradient/reinforce_continuous_baseline.py b/...gradient/reinforce_continuous_baseline.py → ...gradient/reinforce_continuous_baseline.py
diff --git a/...ems/policy_gradient/reinforce_discrete.py → ...ems/policy_gradient/reinforce_discrete.py b/...ems/policy_gradient/reinforce_discrete.py → ...ems/policy_gradient/reinforce_discrete.py
diff --git a/.../policy_gradient/reinforce_discrete_ac.py → .../policy_gradient/reinforce_discrete_ac.py b/.../policy_gradient/reinforce_discrete_ac.py → .../policy_gradient/reinforce_discrete_ac.py
diff --git a/...y_gradient/reinforce_discrete_baseline.py → ...y_gradient/reinforce_discrete_baseline.py b/...y_gradient/reinforce_discrete_baseline.py → ...y_gradient/reinforce_discrete_baseline.py
diff --git a/rl_baselines/utils/noise.py → src/rl_baselines/utils/noise.py b/rl_baselines/utils/noise.py → src/rl_baselines/utils/noise.py
diff --git a/rl_baselines/utils/plot_stack.py → src/rl_baselines/utils/plot_stack.py b/rl_baselines/utils/plot_stack.py → src/rl_baselines/utils/plot_stack.py
diff --git a/rl_baselines/utils/save_utils.py → src/rl_baselines/utils/save_utils.py b/rl_baselines/utils/save_utils.py → src/rl_baselines/utils/save_utils.py
diff --git a/rl_baselines/utils/weights.py → src/rl_baselines/utils/weights.py b/rl_baselines/utils/weights.py → src/rl_baselines/utils/weights.py