-
Notifications
You must be signed in to change notification settings - Fork 0
Supportare .xlsx nel layer CLEAN mantenendo il workbook originale in RAW #9
Copy link
Copy link
Labels
enhancementNew feature or requestNew feature or request
Description
Contesto
Nel laboratorio reale stress-local, il caso case_06_terna_domanda_22 usa come sorgente originale un file Excel:
terna-domanda-22.xlsx
Oggi il toolkit non legge direttamente .xlsx in CLEAN, quindi il file viene convertito manualmente a CSV prima di entrare nella pipeline.
Questo funziona, ma sposta fuori dal toolkit una parte del workflow e rende meno chiaro il contract operativo.
Obiettivo
Supportare .xlsx nel layer CLEAN senza cambiare il ruolo della pipeline:
- RAW conserva il file originale
- CLEAN legge il workbook
- MART resta invariato
Scelta proposta
Supporto iniziale minimo:
- solo
.xlsx - nessun supporto
.xls - nessuna conversione automatica in RAW
- nuova opzione
clean.read.sheet_name
Riutilizzare dove possibile il contract gia' esistente:
headerskipcolumnstrim_whitespace
Perche' cosi'
Questa soluzione rispetta meglio i confini della pipeline:
- RAW resta layer di acquisizione/conservazione
- CLEAN resta layer di lettura/normalizzazione
- non si introducono artefatti CSV intermedi non dichiarati
Verifica attesa
- test unitari per lettura
.xlsx - supporto selezione input
.xlsxin CLEAN - smoke reale su
terna-domanda-22.xlsx
Rischi / limiti
- nuova dipendenza runtime:
openpyxl - alcuni workbook possono produrre warning di stile non bloccanti
- il primo step supporta solo
.xlsx
Esito desiderato
Una PR piccola e chiara che introduca il supporto .xlsx nel layer CLEAN, senza allargare inutilmente la superficie del runtime.
Reactions are currently unavailable
Metadata
Metadata
Assignees
Labels
enhancementNew feature or requestNew feature or request
Type
Projects
Status
✅ Completato