Skip to content

Supportare .xlsx nel layer CLEAN mantenendo il workbook originale in RAW #9

@Gabrymi93

Description

@Gabrymi93

Contesto

Nel laboratorio reale stress-local, il caso case_06_terna_domanda_22 usa come sorgente originale un file Excel:

  • terna-domanda-22.xlsx

Oggi il toolkit non legge direttamente .xlsx in CLEAN, quindi il file viene convertito manualmente a CSV prima di entrare nella pipeline.

Questo funziona, ma sposta fuori dal toolkit una parte del workflow e rende meno chiaro il contract operativo.

Obiettivo

Supportare .xlsx nel layer CLEAN senza cambiare il ruolo della pipeline:

  • RAW conserva il file originale
  • CLEAN legge il workbook
  • MART resta invariato

Scelta proposta

Supporto iniziale minimo:

  • solo .xlsx
  • nessun supporto .xls
  • nessuna conversione automatica in RAW
  • nuova opzione clean.read.sheet_name

Riutilizzare dove possibile il contract gia' esistente:

  • header
  • skip
  • columns
  • trim_whitespace

Perche' cosi'

Questa soluzione rispetta meglio i confini della pipeline:

  • RAW resta layer di acquisizione/conservazione
  • CLEAN resta layer di lettura/normalizzazione
  • non si introducono artefatti CSV intermedi non dichiarati

Verifica attesa

  • test unitari per lettura .xlsx
  • supporto selezione input .xlsx in CLEAN
  • smoke reale su terna-domanda-22.xlsx

Rischi / limiti

  • nuova dipendenza runtime: openpyxl
  • alcuni workbook possono produrre warning di stile non bloccanti
  • il primo step supporta solo .xlsx

Esito desiderato

Una PR piccola e chiara che introduca il supporto .xlsx nel layer CLEAN, senza allargare inutilmente la superficie del runtime.

Metadata

Metadata

Assignees

Labels

enhancementNew feature or request

Projects

Status

✅ Completato

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions