Este projeto aplica a metodologia CRISP-DM (Cross-Industry Standard Process for Data Mining) para desenvolver um modelo de aprendizado de máquina capaz de classificar variedades de grãos de trigo com base em suas características físicas.
O objetivo é automatizar o processo de classificação em cooperativas agrícolas, aumentando a eficiência e reduzindo erros humanos.
Utilizamos o Seeds Dataset do UCI Machine Learning Repository, que contém medições geométricas de grãos de trigo pertencentes a três variedades:
- Kama
- Rosa
- Canadian
- Área
- Perímetro
- Compacidade
- Comprimento do Núcleo
- Largura do Núcleo
- Coeficiente de Assimetria
- Comprimento do Sulco do Núcleo
O desenvolvimento seguiu as seguintes etapas:
-
Análise e Pré-processamento:
- Análise exploratória de dados (EDA) com histogramas, boxplots e scatter plots.
- Verificação de valores ausentes e outliers.
- Padronização dos dados utilizando
StandardScaler.
-
Modelagem:
- Implementação e comparação de diversos algoritmos:
- K-Nearest Neighbors (KNN)
- Support Vector Machine (SVM)
- Random Forest
- Naive Bayes
- Logistic Regression
- Implementação e comparação de diversos algoritmos:
-
Otimização:
- Ajuste de hiperparâmetros utilizando
GridSearchCVpara os modelos de melhor desempenho (SVM e Random Forest).
- Ajuste de hiperparâmetros utilizando
-
Avaliação e Interpretação:
- Análise de métricas como Acurácia, Precisão, Recall e F1-Score.
- Interpretação da importância das features.
Os modelos SVM e Random Forest apresentaram os melhores resultados, com acurácia superior a 90% após a otimização. As características como Área, Perímetro e Comprimento do Sulco mostraram-se determinantes para a distinção entre as variedades.
- Python 3
- Pandas & NumPy (Manipulação de dados)
- Matplotlib & Seaborn (Visualização)
- Scikit-learn (Machine Learning)
- Jupyter Notebook
- Clone este repositório:
git clone https://github.com/seu-usuario/seu-repositorio.git
- Instale as dependências necessárias (caso não tenha):
pip install pandas numpy matplotlib seaborn scikit-learn
- Execute o notebook
grain_classification.ipynbem um ambiente Jupyter ou Google Colab.
Projeto acadêmico - FIAP 2025 - LICENSE
🌾 FarmTech Solutions - Transformando dados em decisões inteligentes para a agricultura do futuro!