Skip to content

[Task] Rafforzare il bridge RAW -> CLEAN #13

@Gabrymi93

Description

@Gabrymi93

Obiettivo

Rendere piu chiaro e piu utile il passaggio RAW -> CLEAN nel toolkit, senza aggiungere nuova complessita inutile e senza cambiare il workflow base run all.

In particolare:

  • rendere visibili i principali profile_hints gia prodotti dal RAW
  • lasciare un artefatto riusabile dal clean gia dopo run raw
  • chiarire il percorso operativo consigliato per dataset nuovi o sporchi

Contesto

Durante il lavoro su dataset reali come:

  • IRPEF comunale
  • popolazione ISTAT comunale

e emerso che il toolkit ha gia buona parte dei mattoni utili per il passaggio raw -> clean, ma oggi sono troppo dispersi:

  • run raw scrive metadata.json con profile_hints
  • profile raw scrive suggested_read.yml
  • clean sa gia consumare suggested_read.yml

Il problema quindi non e tanto l'assenza di feature, ma la loro scarsa integrazione nel flusso operativo principale.

Questo porta a:

  • aperture manuali di metadata.json
  • passaggi poco intuitivi tra run raw e definizione del clean
  • minore visibilita dei segnali utili gia disponibili

Criteri di completamento

  • inspect paths espone in modo leggibile i principali raw profile hints o un blocco equivalente
  • run raw scrive _profile/suggested_read.yml quando il file primario e profilabile e il comportamento e coerente con la artifact policy
  • documentazione aggiornata sul workflow consigliato per il bridge raw -> clean

Collegamenti

Metadata

Metadata

Assignees

Labels

enhancementNew feature or request

Projects

Status

✅ Completato

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions