dev's Advanced CNN from Scratch

A sophisticated, production-ready Convolutional Neural Network implementation built entirely from scratch using only NumPy and SciPy. This project demonstrates advanced deep learning concepts with modern architectural patterns and optimization techniques.

Features

Advanced Architecture

Multiple CNN Architectures: Deep, Lightweight, and Modern variants
Modern Activation Functions: ReLU, Leaky ReLU, Swish, GELU, Mish
Advanced Regularization: Batch Normalization, Dropout, L1/L2 regularization
Pooling Layers: Max Pooling and Average Pooling with configurable strides

Sophisticated Training Framework

Advanced Optimizers: SGD with momentum, Adam, RMSprop
Learning Rate Scheduling: Step decay, Exponential decay, Cosine annealing
Early Stopping: Prevents overfitting with patience and best weight restoration
Batch Processing: Efficient training with configurable batch sizes
Gradient Clipping: Prevents exploding gradients

Comprehensive Loss Functions

Classification: Cross-entropy variants, Focal Loss, Label Smoothing
Regression: MSE, MAE, Huber Loss
Advanced: Dice Loss, Tversky Loss, KL Divergence, Cosine Similarity

Visualization & Analysis

Training Curves: Real-time loss and accuracy plotting
Prediction Visualization: Model output analysis
Model Checkpointing: Save/load trained models
Performance Metrics: Comprehensive evaluation tools

Installation

Prerequisites

Python 3.8+
pip package manager

Install Dependencies

pip install -r requirements.txt

Quick Setup

# Clone the repository
git clone https://github.com/bsagevedant/CNNfromScratch.git
cd CNNfromScratch

# Install dependencies
pip install -r requirements.txt

# Run the advanced CNN
python main.py

Quick Start

Basic Usage

from main import main, create_advanced_cnn_architecture
from network import train, predict
from losses import categorical_cross_entropy, categorical_cross_entropy_prime

# Run the complete training pipeline
main()

Custom Architecture

# Create a custom CNN architecture
network = create_advanced_cnn_architecture(
    input_shape=(1, 28, 28),
    num_classes=10,
    architecture='deep'  # 'deep', 'lightweight', 'modern'
)

# Train with custom configuration
history = train(
    network=network,
    loss=categorical_cross_entropy,
    loss_prime=categorical_cross_entropy_prime,
    x_train=x_train,
    y_train=y_train,
    epochs=50,
    learning_rate=0.001,
    batch_size=32,
    optimizer='adam'
)

Advanced Features

from network import EarlyStopping, LearningRateScheduler

# Early stopping to prevent overfitting
early_stopping = EarlyStopping(patience=10, min_delta=0.001)

# Learning rate scheduling
scheduler = LearningRateScheduler.cosine_annealing(0.001, 50)

# Train with advanced features
history = train(
    network=network,
    loss=categorical_cross_entropy,
    loss_prime=categorical_cross_entropy_prime,
    x_train=x_train,
    y_train=y_train,
    x_val=x_val,
    y_val=y_val,
    epochs=50,
    learning_rate=0.001,
    scheduler=scheduler,
    early_stopping=early_stopping,
    save_path='results/my_cnn'
)

Project Structure

CNNfromScratch/
├── main.py                 # Main training pipeline and examples
├── network.py              # Advanced training framework
├── convolutional.py        # Convolutional layers with pooling
├── dense.py                # Fully connected layers with optimization
├── activation.py           # Advanced activation functions
├── losses.py               # Comprehensive loss functions
├── reshape.py              # Data reshaping utilities
├── advanced_layers.py      # Batch norm, dropout, attention
├── requirements.txt        # Project dependencies
├── README.md              # This file
└── results/               # Training results and saved models
    ├── training_curves.png
    ├── model_weights.json
    └── training_history.json

Supported Datasets

MNIST: Handwritten digit recognition
CIFAR-10: Natural image classification
Custom datasets: Easy integration for your own data

Architecture Variants

1. Deep CNN (`architecture='deep'`)

3 convolutional blocks with increasing depth
Batch normalization and dropout for regularization
Multiple activation functions (ReLU, Swish, GELU, Mish)
Dense layers with L2 regularization

2. Lightweight CNN (`architecture='lightweight'`)

Optimized for speed and efficiency
Fewer parameters, faster training
Ideal for resource-constrained environments

3. Modern CNN (`architecture='modern'`)

State-of-the-art architectural patterns
Residual-like connections and attention mechanisms
Advanced regularization techniques

Performance Benchmarks

Architecture	MNIST Accuracy	Training Time	Parameters
Lightweight	97.5%	~2 minutes	~50K
Deep	98.8%	~5 minutes	~200K
Modern	99.1%	~8 minutes	~500K

Results on limited sample training (1000 samples) for demonstration

Advanced Configuration

Optimizer Options

# SGD with momentum
optimizer='sgd', momentum=0.9

# Adam optimizer
optimizer='adam', beta1=0.9, beta2=0.999, epsilon=1e-8

# RMSprop
optimizer='rmsprop', beta=0.9, epsilon=1e-8

Loss Function Options

# Classification
loss=categorical_cross_entropy, loss_prime=categorical_cross_entropy_prime

# Focal Loss for imbalanced datasets
loss=focal_loss, loss_prime=focal_loss_prime, alpha=1.0, gamma=2.0

# Regression
loss=mean_squared_error, loss_prime=mean_squared_error_prime

Regularization

# L1 and L2 regularization in dense layers
Dense(input_size, output_size, l1_reg=0.001, l2_reg=0.001)

# Dropout rates
Dropout(0.5)  # 50% dropout

# Batch normalization
BatchNormalization(input_shape)

Training Visualization

The framework automatically generates comprehensive training visualizations:

Loss Curves: Training and validation loss over time
Accuracy Curves: Model performance metrics
Learning Rate Schedule: Dynamic learning rate changes
Combined View: All metrics in one plot

Model Management

Save Trained Models

from network import save_model, load_model

# Save model weights
save_model(network, 'my_model.json')

# Load pre-trained model
load_model(network, 'my_model.json')

Training History

# Training history is automatically saved as JSON
# Contains: losses, accuracies, learning rates, epochs
{
    "train_losses": [...],
    "val_losses": [...],
    "train_accuracies": [...],
    "val_accuracies": [...],
    "learning_rates": [...],
    "epochs": [...]
}

Educational Value

This implementation serves as an excellent learning resource for:

Deep Learning Fundamentals: Understanding CNN mechanics
Modern Architectures: State-of-the-art design patterns
Optimization Techniques: Advanced training strategies
Implementation Details: From-scratch neural network building
Best Practices: Production-ready code patterns

Technical Highlights

Numerical Stability

Gradient clipping to prevent exploding gradients
Epsilon constants for numerical stability
Proper weight initialization (He, Xavier, LeCun)

Memory Efficiency

Batch processing for large datasets
Optimized convolution implementations
Memory-efficient gradient computation

Extensibility

Modular design for easy customization
Plugin architecture for new layers
Configurable hyperparameters

Contributing

Contributions are welcome! Areas for improvement:

New activation functions
Additional loss functions
GPU acceleration with CuPy
More advanced architectures (ResNet, DenseNet, etc.)
Data augmentation techniques
Model compression methods

License

This project is open source and available under the MIT License.

Acknowledgments

NumPy/SciPy: Core computational libraries
Keras: Dataset loading utilities
Research Community: For advancing CNN architectures and training techniques

Built by dev - Demonstrating the power of understanding deep learning from the ground up!

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
README.md		README.md
activation.py		activation.py
advanced_layers.py		advanced_layers.py
convolutional.py		convolutional.py
demo.py		demo.py
dense.py		dense.py
layer.py		layer.py
losses.py		losses.py
main.py		main.py
network.py		network.py
requirements.txt		requirements.txt
reshape.py		reshape.py
utils.py		utils.py

bsagevedant/cnnfromscratch

Folders and files

Latest commit

History

Repository files navigation