Skip to content

[Task] Chiudere il gap di lettura CLEAN per CSV posizionali con righe irregolari #11

@Gabrymi93

Description

@Gabrymi93

Obiettivo

Chiudere formalmente il gap di lettura CLEAN per sorgenti CSV con schema posizionale dichiarato e righe piu corte del numero di colonne atteso, mantenendo il comportamento come opzione esplicita e non come nuovo default.

Contesto

Il problema e emerso su un caso reale di dataset pubblico multi-anno: la fonte restava leggibile e analiticamente utile, ma alcune annualita non avevano una larghezza di riga perfettamente uniforme.

In questi casi:

  • il mapping per nome colonna non e sempre la scelta giusta
  • uno schema posizionale canonico in clean.read.columns resta utile
  • manca pero una modalita robusta e dichiarata per allineare righe piu corte senza rompere il clean

L'implementazione e gia disponibile su branch:

  • fix/normalize-ragged-clean-csv

Commit principale:

  • adf07f0

Criteri di completamento

  • la feature clean.read.normalize_rows_to_columns e documentata come opt-in
  • il reader CLEAN richiede clean.read.columns quando la feature e attiva
  • test e documentazione restano coerenti con il perimetro della feature

Collegamenti

Issue correlate / Discussion / PR

  • branch: fix/normalize-ragged-clean-csv
  • commit: adf07f0

Metadata

Metadata

Assignees

Labels

bugSomething isn't workingdocumentationImprovements or additions to documentation

Type

Projects

Status

✅ Completato

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions