Name	Name	Last commit message	Last commit date
parent directory ..
README.md	README.md
dataset3Params.m	dataset3Params.m
emailFeatures.m	emailFeatures.m
emailSample1.txt	emailSample1.txt
emailSample2.txt	emailSample2.txt
ex6data1.mat	ex6data1.mat
ex6data2.mat	ex6data2.mat
ex6data3.mat	ex6data3.mat
gaussianKernel.m	gaussianKernel.m
getVocabList.m	getVocabList.m
linearKernel.m	linearKernel.m
porterStemmer.m	porterStemmer.m
processEmail.m	processEmail.m
readFile.m	readFile.m
sample6.m	sample6.m
sample6_fig1.jpg	sample6_fig1.jpg
sample6_fig2.jpg	sample6_fig2.jpg
sample6_fig3.jpg	sample6_fig3.jpg
sample6_fig4.jpg	sample6_fig4.jpg
sample6_spam.m	sample6_spam.m
spamSample1.txt	spamSample1.txt
spamSample2.txt	spamSample2.txt
spamTest.mat	spamTest.mat
spamTrain.mat	spamTrain.mat
svmPredict.m	svmPredict.m
svmTrain.m	svmTrain.m
svm_visualization.png	svm_visualization.png
visualizeBoundary.m	visualizeBoundary.m
visualizeBoundaryLinear.m	visualizeBoundaryLinear.m
vocab.txt	vocab.txt

Name

Last commit message

Last commit date

README.md

svm_visualization.png

visualizeBoundary.m

visualizeBoundaryLinear.m

vocab.txt

Support Vector Machines

Overview

This project implements Support Vector Machines (SVMs) for both linear and non-linear classification. It also builds a spam email classifier using SVMs with text preprocessing.

Algorithm

SVM Classification

SVMs find the optimal separating hyperplane that maximizes the margin between classes. Key components:

Linear kernel: For linearly separable data
Gaussian (RBF) kernel: K(x1, x2) = exp(-||x1-x2||^2 / (2*sigma^2)) for non-linear boundaries
C parameter: Controls the penalty for misclassification (analogous to 1/lambda)

Spam Classification

Emails are preprocessed (lowercasing, URL normalization, stemming, etc.) and converted to feature vectors. A linear SVM is trained on these features to classify spam vs. non-spam.

Files

File	Description
`sample6.m`	Main script: SVM with linear and Gaussian kernels
`sample6_spam.m`	Main script: spam email classification
`svmTrain.m`	SVM training using SMO algorithm
`svmPredict.m`	SVM prediction
`gaussianKernel.m`	Gaussian (RBF) kernel function
`linearKernel.m`	Linear kernel function
`dataset3Params.m`	Cross-validation for C and sigma selection
`visualizeBoundary.m`	Plots non-linear decision boundary
`visualizeBoundaryLinear.m`	Plots linear decision boundary
`processEmail.m`	Email text preprocessing
`emailFeatures.m`	Converts word indices to feature vector
`getVocabList.m`	Loads the vocabulary list
`porterStemmer.m`	Porter stemming algorithm
`readFile.m`	Reads file contents
`ex6data[1-3].mat`	2D classification datasets
`spamTrain.mat`, `spamTest.mat`	Spam classification datasets
`vocab.txt`	Vocabulary list (1899 words)
`emailSample[1-2].txt`	Sample legitimate emails
`spamSample[1-2].txt`	Sample spam emails

Key Results

Linear SVM: Correctly separates linearly separable data
Gaussian SVM: Achieves non-linear decision boundaries for complex datasets
Spam Classifier: Training accuracy: 99.85%, Test accuracy: 98.9%
Top spam indicators: "our", "click", "remov", "guarante", "visit"

Visualization

Left: Linear SVM with margin boundaries. Center: Non-linear RBF kernel SVM. Right: Gaussian kernel function for different sigma values.

Credit

Exercises from Andrew Ng's Machine Learning course on Coursera, completed by Keivan Hassani Monfared.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

Support Vector Machines

Overview

Algorithm

SVM Classification

Spam Classification

Files

Key Results

Visualization

Credit

FilesExpand file tree

06_support_vector_machines

Directory actions

More options

Directory actions

More options

Latest commit

History

06_support_vector_machines

Folders and files

parent directory

README.md

Support Vector Machines

Overview

Algorithm

SVM Classification

Spam Classification

Files

Key Results

Visualization

Credit