这是作者在机器学习课程上的作业,任务是利用kaggle上的信用卡欺诈数据建立预测模型,对比四则运算扩展特征前后,以及随机森林算法和GBDT算法的效果。 首先进行特征工程,检查数据集中是否有异常值、缺失值等,后对数据集中欺诈样本下采样以平衡欺诈样本与非欺诈样本的数量; 之后利用相关矩阵寻找特征,并用热力图进行可视化处理,利用简单的四则运算扩展特征; 最后训练随机森林和GBDT模型并输出结果,得到结果是扩展特征后的随机森林算法对信用卡欺诈预测效果最好。
LAUXXIN/Creditcard_Fraud_Detection
Folders and files
| Name | Name | Last commit date | ||
|---|---|---|---|---|