Skip to content

Canarias16/ETL_Databricks

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

ETL de Clientes com Databricks

Este projecto implementa uma pipeline ETL robusta com PySpark e Delta Lake, usando dados sintéticos de clientes.

Arquitectura Medallion

  • Bronze: ingestão directa do ficheiro CSV
  • Silver: validação, limpeza e transformação dos dados
  • Gold: análise e agregação dos dados transformados

Etapas

  1. 1_ingestao_bronze.py: lê dados crus e grava em Delta na camada bronze
  2. 2_transformacao_silver.py: valida e transforma os dados para a camada silver
  3. 3_analise_gold.py: produz indicadores (ex: clientes por ano) e grava na camada gold

Validações Incluídas

  • Validação de schema
  • Verificação de nulos em colunas obrigatórias

Como Usar

  1. Substituir /mnt/datalake/... pelos caminhos do teu ambiente
  2. Carregar data/clientes.csv no Data Lake
  3. Executar os notebooks na ordem 1 → 2 → 3

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages