Continuous Control with TD3 (Twin Delayed DDPG) on BipedalWalker-v3

Implemented a reinforcement learning agent to master continuous walking dynamics in OpenAI Gym’s BipedalWalker-v3 environment.

Objective

To explore continuous control and policy gradient optimization through TD3.

Environment
- BipedalWalker-v3 from OpenAI Gym.
Algorithm
- Actor-Critic network architecture with:
  - Twin Q-Networks
  - Delayed policy updates
  - Target policy smoothing
Training
- Replay buffer, target network updates, and Ornstein-Uhlenbeck noise.
Performance
- Achieved average rewards >300 after 100 episodes.

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
.gitignore		.gitignore
agent-code.ipynb		agent-code.ipynb
agent-hardcore-log.txt		agent-hardcore-log.txt
agent-log.txt		agent-log.txt
agent-paper.pdf		agent-paper.pdf
readme.md		readme.md