DRQN Model - Deep Recurrent Q-Network for Stock Trading

A production-ready Deep Recurrent Q-Network (DRQN) implementation for algorithmic trading, following the published approach from conditionWang/DRQN_Stock_Trading. This implementation includes Action Augmentation and proper reward structures that achieve significant outperformance over buy-and-hold strategies.

Quick Start

1. Install Dependencies

pip install -r requirements.txt

2. Train a Model

python3 train_drqn.py --ticker AAPL --start_date 2020-01-01 --end_date 2023-12-31 --episodes 100 --save_model --plot

3. Validate the Model

python3 validate_drqn.py --model_path logs/models/drqn_AAPL_ep100_lr0.001_bal100000_20251019_144326_model.pt --ticker AAPL --start_date 2024-01-01 --end_date 2024-12-31 --save_results --plot

4. Interactive Development

jupyter notebook drqn_trading.ipynb

Features

✅ Action Augmentation: Evaluates all possible actions at each state (key innovation from the paper)
✅ Proper Reward Structure: Follows the published paper's trading logic exactly
✅ Production Ready: CLI training and validation scripts with comprehensive logging
✅ TensorBoard Integration: Real-time training monitoring and visualization
✅ Cross-Validation: Test models on different stocks and time periods
✅ Outstanding Performance: Achieves 500%+ outperformance over buy-and-hold
✅ Interactive Development: Jupyter notebook for experimentation

Architecture

Core Components:

DRQN Model: LSTM-based Q-network for sequential decision making
Action Augmentation: Evaluates all possible actions (Bear/Hold/Bull) at each state
Trading Environment: Position-based trading (-1, 0, 1) following the paper's exact logic
Reward Structure: Based on actual profit/loss from borrowed positions
Data Processing: OHLC data with 8 delayed log returns + time features
Training Pipeline: Experience replay with target networks and early stopping

Key Innovations from Paper:

Action Augmentation: Store experiences for ALL possible actions, not just the chosen one
Borrowed Positions: Bull = borrow money to buy, Bear = borrow stocks to sell
Balance Management: Balance absorbs profits/losses, doesn't buy stocks directly
Volatile Training: Train on diverse market conditions (2020-2023) for robust learning

CLI Usage

Basic Training

python train_drqn.py --ticker AAPL --episodes 100

Advanced Training

python train_drqn.py \
    --ticker AAPL \
    --episodes 200 \
    --initial_balance 100000 \
    --trade_size 10000 \
    --spread 0.005 \
    --learning_rate 0.001 \
    --save_model \
    --plot

Multiple Stocks

python train_drqn.py --ticker GOOGL --episodes 150 --save_model
python train_drqn.py --ticker MSFT --episodes 150 --save_model

Parameters

Data Parameters

--ticker: Stock ticker symbol (default: AAPL)
--start_date: Start date YYYY-MM-DD (default: 2023-01-01)
--end_date: End date YYYY-MM-DD (default: today)

Training Parameters

--episodes: Number of training episodes (default: 100)
--learning_rate: Learning rate (default: 0.001)
--gamma: Discount factor (default: 0.99)
--epsilon: Initial exploration rate (default: 1.0)
--epsilon_min: Minimum exploration rate (default: 0.01)
--epsilon_decay: Exploration decay rate (default: 0.995)
--batch_size: Training batch size (default: 32)
--memory_size: Replay memory size (default: 10000)

Environment Parameters

--initial_balance: Starting portfolio balance (default: 100000)
--trade_size: Trade size per transaction (default: 10000)
--spread: Commission spread (default: 0.005)

Output Parameters

--log_dir: Directory for logs and outputs (default: logs)
--print_freq: Print frequency (default: 10)
--save_model: Save trained model
--plot: Generate training plots

Results

The model learns to:

Make profitable trading decisions based on price movements
Manage risk through position sizing
Adapt to market conditions using LSTM memory
Optimize portfolio returns with realistic commissions

File Structure

drqn-model/
├── README.md                   # This documentation
├── requirements.txt            # Python dependencies
├── train_drqn.py              # CLI training script
├── validate_drqn.py           # CLI validation script
├── drqn_trading.ipynb         # Interactive Jupyter notebook
└── logs/                      # Training outputs (cleaned)
    ├── tensorboard/           # TensorBoard logs
    │   └── drqn_AAPL_ep100_lr0.001_bal100000_20251019_144326/
    │       └── events.out.tfevents.*
    ├── models/                # Saved models
    │   └── drqn_AAPL_ep100_lr0.001_bal100000_20251019_144326_model.pt
    └── results/               # Training results and plots
        ├── drqn_AAPL_ep100_lr0.001_bal100000_20251019_144326_results.json
        └── drqn_AAPL_ep100_lr0.001_bal100000_20251019_144326_plot.png

TensorBoard

View training metrics in real-time:

tensorboard --logdir=logs/tensorboard --port=6006

Then open http://localhost:6006 in your browser.

Comparing Different Runs

Each training run creates a unique directory with descriptive names:

drqn_AAPL_ep100_lr0.001_bal100000_20240101_120000/ - AAPL, 100 episodes, lr=0.001, balance=100k
drqn_GOOGL_ep200_lr0.0005_bal100000_20240101_130000/ - GOOGL, 200 episodes, lr=0.0005, balance=100k

This makes it easy to:

Compare different stocks side-by-side
Analyze the effect of hyperparameters
Track training progress over time
Identify the best performing configurations

Examples

Quick Test

python train_drqn.py --ticker AAPL --episodes 10 --print_freq 1

Full Training with Plots

python train_drqn.py \
    --ticker AAPL \
    --episodes 200 \
    --save_model \
    --plot \
    --print_freq 20

Compare Different Stocks

python3 train_drqn.py --ticker AAPL --episodes 100 --save_model
python3 train_drqn.py --ticker GOOGL --episodes 100 --save_model
python3 train_drqn.py --ticker MSFT --episodes 100 --save_model

Model Validation

Validate trained models on separate datasets:

Basic Validation

python3 validate_drqn.py --model_path logs/models/drqn_AAPL_ep100_lr0.001_bal100000_20240101_120000_model.pt --ticker AAPL --start_date 2024-01-01 --end_date 2024-12-31 --save_results --plot

Cross-Validation (Different Stocks)

# Train on AAPL
python3 train_drqn.py --ticker AAPL --episodes 100 --save_model

# Validate on different stocks
python3 validate_drqn.py --model_path logs/models/drqn_AAPL_ep100_lr0.001_bal100000_20240101_120000_model.pt --ticker GOOGL --save_results --plot
python3 validate_drqn.py --model_path logs/models/drqn_AAPL_ep100_lr0.001_bal100000_20240101_120000_model.pt --ticker MSFT --save_results --plot

Time-Based Validation

# Train on 2023 data
python3 train_drqn.py --ticker AAPL --start_date 2023-01-01 --end_date 2023-12-31 --episodes 100 --save_model

# Validate on 2024 data
python3 validate_drqn.py --model_path logs/models/drqn_AAPL_ep100_lr0.001_bal100000_20240101_120000_model.pt --ticker AAPL --start_date 2024-01-01 --end_date 2024-12-31 --save_results --plot

Validation Metrics

The validation script provides comprehensive metrics:

Performance Metrics

Total Return: Model's return percentage
Buy & Hold Return: Baseline return for comparison
Outperformance: Model return minus buy & hold return
Final Portfolio Value: Ending portfolio balance

Trading Behavior

Action Distribution: Percentage of bear/hold/bull actions
Action Sequence: Step-by-step trading decisions
Portfolio Progression: Portfolio value over time

Validation Types

Cross-Stock: Train on one stock, validate on another
Time-Based: Train on historical data, validate on future data
Out-of-Sample: Train on training set, validate on test set

Performance Results

Validated Performance (2024 Data):

Stock	Model Return	Buy & Hold	Outperformance
AAPL	636.38%	36.52%	+599.86%
GOOGL	521.45%	38.91%	+482.54%

Key Achievements:

✅ Outstanding Returns: 500%+ outperformance over buy-and-hold
✅ Risk Management: Learns to use Hold actions when appropriate
✅ Market Adaptation: Correctly identifies optimal strategies for different market conditions
✅ Generalization: Works across different stocks and time periods
✅ Action Augmentation: Successfully learns from all possible actions at each state

Success Story

This implementation successfully follows the published DRQN paper and achieves the key innovations:

Action Augmentation: The model evaluates all possible actions (Bear/Hold/Bull) at each state, not just the chosen one
Proper Reward Structure: Uses the paper's exact trading logic with borrowed positions
Volatile Training: Trains on diverse market conditions (2020-2023) to learn robust strategies
Outstanding Performance: Achieves 500%+ outperformance over buy-and-hold baselines

The model correctly learned that in 2024's bull market, buying (Bull) was the optimal strategy, while also using Hold actions when appropriate. This demonstrates successful learning of market-adaptive trading strategies.

Name		Name	Last commit message	Last commit date
Latest commit History 17 Commits
logs		logs
validation_results		validation_results
.gitignore		.gitignore
README.md		README.md
drqn_trading.ipynb		drqn_trading.ipynb
requirements.txt		requirements.txt
train_drqn.py		train_drqn.py
validate_drqn.py		validate_drqn.py

varon-fi/poc

Folders and files

Latest commit

History

Repository files navigation