Skip to content

Add clean.read.parallel support for dirty CSV ingestion#6

Merged
Gabrymi93 merged 1 commit intomainfrom
feat/csv-read-parallel-flag
Mar 3, 2026
Merged

Add clean.read.parallel support for dirty CSV ingestion#6
Gabrymi93 merged 1 commit intomainfrom
feat/csv-read-parallel-flag

Conversation

@Gabrymi93
Copy link
Copy Markdown
Member

🧾 Pull Request – DataCivicLab

🔗 Issue collegata

Closes #5

🎯 Contesto

Alcuni CSV reali e sporchi non erano leggibili correttamente in CLEAN quando DuckDB richiedeva la disattivazione del parallel scanner per combinazioni come null_padding=true e righe con quoted new lines.

Questa PR introduce un controllo esplicito nel config per gestire quel caso senza workaround esterni.

⚙️ Cosa cambia

  • aggiunge il supporto a clean.read.parallel
  • propaga parallel=true|false nel reader DuckDB del layer CLEAN
  • aggiorna schema config e test mirati per coprire il pass-through della nuova opzione

📊 Impatto su dati / metodo / dashboard

Indicare se questa PR impatta:

  • RAW
  • CLEAN
  • MART
  • Dashboard
  • Metodo
  • Documentazione
  • Bugfix
  • Nessun impatto dati

Effetto atteso:

  • migliora la robustezza su CSV reali grandi o sporchi
  • non cambia il workflow canonico
  • aggiunge solo una leva configurabile nel reader CLEAN

🧪 QA Checklist

  • Ho testato il codice / notebook
  • Non rompe pipeline esistenti
  • Naming coerente (snake_case, convenzioni Lab)
  • Documentazione aggiornata
  • Ho collegato l’issue corretta

Verifiche eseguite:

  • py -3.14 -m pytest -q -p no:cacheprovider tests/test_clean_duckdb_read.py
  • py -3.14 -m ruff check --no-cache toolkit/core/csv_read.py toolkit/core/config_models.py toolkit/clean/duckdb_read.py tests/test_clean_duckdb_read.py docs/config-schema.md

📝 Note per i reviewer

Punto da verificare:

  • la nuova opzione deve restare minimale e specifica del reader CSV CLEAN, senza allargare inutilmente il contratto pubblico del toolkit

@Gabrymi93 Gabrymi93 added bug Something isn't working enhancement New feature or request labels Mar 3, 2026
@Gabrymi93 Gabrymi93 linked an issue Mar 3, 2026 that may be closed by this pull request
@github-project-automation github-project-automation bot moved this to Backlog in Open Board Mar 3, 2026
@Gabrymi93 Gabrymi93 merged commit ed97d4a into main Mar 3, 2026
5 checks passed
@Gabrymi93 Gabrymi93 deleted the feat/csv-read-parallel-flag branch March 3, 2026 17:13
@github-project-automation github-project-automation bot moved this from Backlog to ✅ Completato in Open Board Mar 3, 2026
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

bug Something isn't working enhancement New feature or request

Projects

Status: ✅ Completato

Development

Successfully merging this pull request may close these issues.

Aggiungere supporto a clean.read.parallel nel reader CLEAN

1 participant