Skip to content

Add normalized CSV read mode for ragged clean inputs#12

Merged
Gabrymi93 merged 1 commit intomainfrom
fix/normalize-ragged-clean-csv
Mar 4, 2026
Merged

Add normalized CSV read mode for ragged clean inputs#12
Gabrymi93 merged 1 commit intomainfrom
fix/normalize-ragged-clean-csv

Conversation

@Gabrymi93
Copy link
Copy Markdown
Member

Sintesi

Questa PR aggiunge una nuova opzione esplicita per il reader CLEAN:

  • clean.read.normalize_rows_to_columns: true

Serve per leggere CSV con schema posizionale dichiarato quando alcune righe, file o annualita hanno meno colonne del layout canonico atteso. Il comportamento resta opt-in e non cambia il default del toolkit.

Contesto collegato

Closes #11

Cosa cambia

  • aggiunge clean.read.normalize_rows_to_columns come opzione supportata di clean.read
  • normalizza le righe CSV piu corte fino al numero di colonne dichiarato in clean.read.columns
  • mantiene stabile il mapping posizionale nel clean.sql per fonti multi-file o multi-anno quasi stabili ma non perfettamente uniformi
  • aggiorna documentazione e schema config
  • aggiunge test mirati sul reader CLEAN

Impatto

Segna solo quello che si applica.

  • Documentazione o testi
  • Policy GitHub o template
  • Codice o automazioni
  • Pipeline dati o trasformazioni
  • Contenuti o metadati di dataset
  • Nessun impatto visibile per chi usa il repository

Verifica

Eseguito:

py -m pytest tests/test_clean_duckdb_read.py -q

Esito:

  • 14 passed

Validato anche su un caso reale di dataset pubblico multi-anno con schema posizionale quasi stabile, emerso durante il lavoro su IRPEF comunale.

Controlli

  • Questa PR e' nel repository giusto
  • Ho collegato issue o discussion quando serve
  • Ho verificato l'impatto su documentazione, codice o dati
  • Ho aggiornato solo quello che era davvero necessario

Note per chi revisiona

Punti da controllare con attenzione:

  • la feature deve restare strettamente opt-in
  • ha senso solo insieme a clean.read.columns
  • non sostituisce la lettura standard per named columns stabili
  • il caso d'uso corretto e: schema posizionale esplicito + righe piu corte del layout atteso

@Gabrymi93 Gabrymi93 linked an issue Mar 4, 2026 that may be closed by this pull request
3 tasks
@github-project-automation github-project-automation bot moved this to Backlog in Open Board Mar 4, 2026
@Gabrymi93 Gabrymi93 merged commit 3a71f1a into main Mar 4, 2026
5 checks passed
@Gabrymi93 Gabrymi93 deleted the fix/normalize-ragged-clean-csv branch March 4, 2026 13:20
@github-project-automation github-project-automation bot moved this from Backlog to ✅ Completato in Open Board Mar 4, 2026
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

Status: ✅ Completato

Development

Successfully merging this pull request may close these issues.

[Task] Chiudere il gap di lettura CLEAN per CSV posizionali con righe irregolari

1 participant