Este projecto implementa uma pipeline ETL robusta com PySpark e Delta Lake, usando dados sintéticos de clientes.
- Bronze: ingestão directa do ficheiro CSV
- Silver: validação, limpeza e transformação dos dados
- Gold: análise e agregação dos dados transformados
1_ingestao_bronze.py: lê dados crus e grava em Delta na camada bronze2_transformacao_silver.py: valida e transforma os dados para a camada silver3_analise_gold.py: produz indicadores (ex: clientes por ano) e grava na camada gold
- Validação de schema
- Verificação de nulos em colunas obrigatórias
- Substituir
/mnt/datalake/...pelos caminhos do teu ambiente - Carregar
data/clientes.csvno Data Lake - Executar os notebooks na ordem
1 → 2 → 3