Skip to content

[Task] Aggiungere un confronto schema multi-anno per il RAW #14

@Gabrymi93

Description

@Gabrymi93

Obiettivo

Aggiungere nel toolkit un modo semplice per confrontare il profilo RAW tra anni diversi dello stesso dataset, cosi da individuare rapidamente variazioni di schema, header o warning prima di fissare il contract del clean.

Contesto

Nel lavoro su dataset storici reali, il problema non e solo il singolo file sporco, ma anche la non uniformita tra annualita.

Il caso IRPEF comunale lo ha mostrato bene:

  • la fonte restava utile
  • il dataset era multi-anno
  • il vero attrito era il cambio di schema tra annualita, non solo il parsing di un singolo file

Dopo il task sul bridge RAW -> CLEAN, il passo con ROI migliore e un supporto piu esplicito al confronto schema multi-anno.

Criteri di completamento

  • esiste un comando o sottocomando che confronta il profilo RAW tra piu anni dello stesso dataset
  • l'output espone almeno file_used, columns_count, header, warning e differenze rilevanti tra anni
  • il comando supporta output leggibile e una forma --json per uso locale o notebook

Collegamenti

Issue correlate / Discussion / PR

  • task principale: [Task] Rafforzare il bridge RAW -> CLEAN
  • note locali:
    • _local/notes/TOOLKIT_COMMAND_FLOW_AUDIT_2026-03-04.md
    • _local/notes/TOOLKIT_ISSUES_COMMAND_FLOW_ROI.md

Se il task nasce da una domanda civica o da una proposta di analisi, collega qui la Discussion di origine.

Metadata

Metadata

Assignees

Labels

documentationImprovements or additions to documentationenhancementNew feature or request

Type

Projects

Status

✅ Completato

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions