Email Classification using BERT

A transformer-based deep learning model that classifies email messages as spam or ham using BERT (Bidirectional Encoder Representations from Transformers). This project includes complete preprocessing, class balancing, sentence embeddings, model training, evaluation, and inference using TensorFlow & TensorFlow Hub.

🚀 Project Highlights

Built using BERT (uncased, L-12, H-768, A-12)
Achieves 93% accuracy, ~90–95% precision and 90–95% recall
Uses TF Hub BERT Preprocessing + Encoder layers
Balanced imbalanced dataset using downsampling
Evaluated using confusion matrix, classification report, precision, recall, F1-score
Predicts new messages with high confidence
Demonstrates semantic similarity using BERT embeddings

📂 Dataset
Dataset from Kaggle: SMS Spam Collection Dataset Class distribution:

Ham: 4825 messages
Spam: 747 messages

Strong class imbalance → handled via downsampling.

🧹 Data Preprocessing

Removed imbalance using random downsampling
Converted categories into binary labels (spam = 1, ham = 0)
Train-test split using stratified sampling

🧠 Model Architecture

BERT Pipeline
BERT Preprocessing Layer
BERT Encoder Layer
Dropout
Dense Layer (Sigmoid Activation)

Only the final layer is trainable → BERT acts as a feature extractor.

📊 Model Performance

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
BERT_email_classification.ipynb		BERT_email_classification.ipynb
README.md		README.md
cm.png		cm.png
report.png		report.png
spam.csv		spam.csv

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Email Classification using BERT

About

Uh oh!

Releases

Packages

Languages

srushtin24/BERT-Email-Classification

Folders and files

Latest commit

History

Repository files navigation

Email Classification using BERT

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages