MLOps Project: Bike Sharing Demand Prediction

Este proyecto implementa un pipeline de Machine Learning de principio a fin para predecir la demanda de bicicletas compartidas en Seúl, utilizando un enfoque robusto de MLOps. El objetivo es demostrar las mejores prácticas para la reproducibilidad, el versionado, el seguimiento de experimentos y la automatización del ciclo de vida de ML.

🌟 Características Principales

Pipeline Reproducible con DVC: Todo el flujo de trabajo, desde la limpieza de datos hasta la generación de predicciones, está orquestado con DVC. Esto garantiza que cada paso sea reproducible con un solo comando.
Versionado de Datos y Modelos: Git se utiliza para el código, mientras que DVC gestiona los datasets y los artefactos de los modelos, manteniendo el repositorio ligero y sincronizado.
Seguimiento de Experimentos con MLflow: Cada experimento de entrenamiento se registra en MLflow. Se guardan parámetros, métricas y los propios modelos para facilitar la comparación y el análisis.
Promoción Automática del Mejor Modelo: Un script automatizado consulta los resultados en MLflow, identifica el modelo con el mejor rendimiento (basado en RMSE) y lo "promueve" para su uso en etapas posteriores.
Experimentación Basada en Configuración: El archivo experiments.yaml permite definir y lanzar múltiples experimentos (diferentes modelos o hiperparámetros) de forma declarativa y organizada.
Código Modular y Estructurado: El proyecto está organizado en módulos claros para el procesamiento de datos, la ingeniería de características, el entrenamiento y la predicción.

🛠️ Herramientas Utilizadas

Lenguaje: Python 3.12+
Gestión de Dependencias: Poetry
Pipeline y Versionado de Datos: DVC (Data Version Control)
Seguimiento de Experimentos: MLflow
Frameworks de ML: Scikit-learn, XGBoost
Librerías de Datos: Pandas, NumPy
CLI y Automatización: Typer, PyYAML

Modelo usado en la API

/models/hist_gradient_boosting_regressor/36

📂 Estructura del Proyecto

├── data/                   # Directorio de datos (rastreado por DVC, no en Git)
│   ├── raw/                # Datos crudos
│   ├── interim/            # Datos intermedios
│   └── processed/          # Datasets listos para el modelado
├── models/                 # Modelos entrenados (rastreado por DVC)
│   └── best_model.pkl      # El mejor modelo promocionado
├── mlops/                  # Código fuente del proyecto
│   ├── dataset.py          # Limpieza y preprocesamiento inicial
│   ├── features.py         # Ingeniería de características
│   ├── modeling/
│   │   ├── train.py        # Script de entrenamiento y tuning
│   │   └── predict.py      # Script para generar predicciones
│   └── config.py           # Configuración centralizada
├── reports/                # Gráficos y reportes generados
├── .dvc/                   # Metadatos de DVC
├── dvc.yaml                # Definición del pipeline de DVC
├── experiments.yaml        # Definición de los experimentos a ejecutar
├── run_experiments.py      # Script para orquestar los experimentos de MLflow
├── run_promote_model.py    # Script para seleccionar y guardar el mejor modelo
├── requirements.txt        # Lista de dependencias
├── pyproject.toml          # Archivo de configuración de Poetry
└── README.md               # Este archivo

🚀 Cómo Empezar

1. Prerrequisitos

Python 3.12+
Git
DVC (pip install dvc)
Poetry (pip install poetry)

2. Configuración del Entorno

Clonar el repositorio:

git clone <URL_DEL_REPOSITORIO>
cd <NOMBRE_DEL_REPOSITORIO>

Instalar dependencias: Utiliza Poetry para crear un entorno virtual e instalar todas las dependencias.
```
poetry install
```
Configurar el almacenamiento remoto de DVC: Este proyecto está configurado para usar un remote de DVC (como DagsHub, S3, Google Drive, etc.). Asegúrate de tener las credenciales configuradas para acceder a él.
Descargar los datos y modelos: Este comando descargará los datasets y el modelo best_model.pkl rastreados por DVC.
```
dvc pull
```

⚙️ Uso del Pipeline

Ejecutar el Pipeline Completo

Para reproducir todo el pipeline, desde el procesamiento de datos hasta la generación de predicciones y gráficos, ejecuta:

dvc repro

DVC se encargará de ejecutar cada etapa (dataset, features, train, promote_model, predict, plots) en el orden correcto, saltándose las que no hayan cambiado.

Seguimiento de Experimentos

El pipeline está integrado con MLflow para un seguimiento robusto de los experimentos.

Definir experimentos: Abre experiments.yaml para añadir o modificar experimentos. Puedes definir diferentes modelos o grillas de hiperparámetros.
Ejecutar el entrenamiento: La etapa train del pipeline se encarga de ejecutar todos los experimentos definidos.
```
dvc repro train
```
Visualizar los resultados: Inicia la interfaz de usuario de MLflow para comparar las métricas, parámetros y artefactos de cada ejecución.
```
mlflow ui
```
Abre tu navegador en http://127.0.0.1:5000.

Name		Name	Last commit message	Last commit date
Latest commit History 111 Commits
.dvc		.dvc
app		app
data		data
docker		docker
docs		docs
mlops		mlops
notebooks		notebooks
references		references
refrences		refrences
reports		reports
tests		tests
.dvcignore		.dvcignore
.gitignore		.gitignore
.pre-commit-config.yaml		.pre-commit-config.yaml
.python_version		.python_version
Makefile		Makefile
Makefile.mk		Makefile.mk
README.md		README.md
dataset_schema.json		dataset_schema.json
dvc.lock		dvc.lock
dvc.yaml		dvc.yaml
experiments.yaml		experiments.yaml
poetry.lock		poetry.lock
pyproject.toml		pyproject.toml
pytest.ini		pytest.ini
requirements.txt		requirements.txt
run_experiments.py		run_experiments.py
run_promote_model.py		run_promote_model.py
setup.cfg		setup.cfg

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

MLOps Project: Bike Sharing Demand Prediction

🌟 Características Principales

🛠️ Herramientas Utilizadas

Modelo usado en la API

📂 Estructura del Proyecto

🚀 Cómo Empezar

1. Prerrequisitos

2. Configuración del Entorno

⚙️ Uso del Pipeline

Ejecutar el Pipeline Completo

Seguimiento de Experimentos

About

Uh oh!

Releases

Packages

Contributors 6

Uh oh!

Languages

Mvzqz/MLOps

Folders and files

Latest commit

History

Repository files navigation

MLOps Project: Bike Sharing Demand Prediction

🌟 Características Principales

🛠️ Herramientas Utilizadas

Modelo usado en la API

📂 Estructura del Proyecto

🚀 Cómo Empezar

1. Prerrequisitos

2. Configuración del Entorno

⚙️ Uso del Pipeline

Ejecutar el Pipeline Completo

Seguimiento de Experimentos

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Contributors 6

Uh oh!

Languages

Packages