Repo di incubazione tecnica per i dataset candidati e le basi trasversali del Lab.
Questa repo e' la casa permanente del contratto tecnico di ogni filone: dataset.yml, SQL, pipeline.
Il lavoro qui serve a validare la fonte, restringere la domanda e stabilizzare l'output minimo.
Se vuoi contribuire operativamente in questa repo:
- leggi CONTRIBUTING.md
- vedi anche workflows/README.md
Non serve per:
- backlog indefinito
- test puramente engine del
toolkit - contenuti editoriali o community ops
Il contratto tecnico (dataset.yml, sql/, pipeline) vive qui — anche dopo che il filone
e' entrato in dataciviclab/analisi/ o in una repo dedicata.
dataciviclab/analisi/: layer pubblico del filone (README civico, notebook, Discussion collegata)- repo progetto dedicata: per filoni che richiedono sviluppo continuativo e governance propria
dataset-incubator non e' un passo intermedio: e' il riferimento tecnico permanente.
- tenere vivi al massimo 2-3 filoni davvero attivi
- ogni filone deve avere domanda, dataset, output minimo e criterio di uscita
- se un filone e' pronto per il layer pubblico, entra in
dataciviclab/analisi/ - i dataset trasversali non entrano in
analisi/per default
Ogni filone attivo ha una issue con label di stato:
intake— entrato, source-check non ancora completatoincubating— lavoro attivo in corsoready-for-promotion— pronto per il layer pubblico indataciviclab/analisi/promoted— layer pubblico attivo; storico inregistry/archived.mdsupport-dataset— base trasversale riusabile, non candidato di filone
Regola pratica:
- le issues sono il tracker vivo di ingresso, stato e uscita dei filoni
- l'intake entra con issue dedicata
- il passaggio a
analisi/si registra con issue o label di promozione coerente registry/archived.mdresta la memoria dei filoni archiviati
dataset-incubator/
registry/
archived.md
templates/
dataset-notes.md
candidate/
candidates/
support_datasets/
out/
data/
logs/
I candidati seguono due pattern a seconda del numero di fonti.
Single-source - fonte unica, dataset.yml in root del candidato:
candidates/caso/
dataset.yml
notes.md
README.md
notebooks/
caso_v0.ipynb
sql/
clean.sql
mart.sql
Multi-source - piu' fonti indipendenti + compose finale:
candidates/caso/
notes.md
README.md
sources/
a_fonte/
dataset.yml
sql/clean.sql, mart.sql
b_fonte/
...
compose/
dataset.yml
sql/mart_compose.sql
Il template base e' in templates/candidate/ e segue il pattern single-source.
Il notebook v0 e' opzionale ma consigliato come sanity check del mart prima della promozione.
Quando un filone matura, puo' uscire in tre modi:
dataciviclab/analisi/quando e' pronto per un primo layer pubblico: README civico, notebook leggibile, Discussion collegata- repo progetto dedicata quando il filone diventa abbastanza ricco e autonomo da meritare una casa propria
- archiviazione quando il candidate non regge o non e' prioritario
In tutti i casi il contratto tecnico (dataset.yml, sql/) resta qui — non viene rimosso.
Checklist operativa breve:
Quando un candidato viene promosso o chiuso:
- aggiornare
registry/archived.mdcon motivo e target finale - ridurre il README del candidato a traccia minima (stato, motivo, puntatore)
- i file tecnici (dataset.yml, sql/, notebook) restano come riferimento permanente
registry/: storia dei filoni usciti (archived.md)templates/: note di supporto e template operativo (candidate/)candidates/: filoni con domanda e potenziale di promozionesupport_datasets/: basi trasversali riusabili per join o controlliout/: runtime locale del toolkit, mai contenuto di progetto
La repo parte volutamente stretta e contiene un mix minimo di:
candidates/support_datasets/
Filoni gia' con layer pubblico in dataciviclab/analisi/:
irpef-comunale— capacita' fiscale IRPEF per comuni e regionicivile-flussi— flussi della giustizia civile nei territoridipendenti-pubblici— dinamica del pubblico impiego per compartomalasanita-struttura-mortalita— mortalita' evitabile e dotazione sanitariaterna-electricity-by-source— mix elettrico italiano per fonte
Fuori dal perimetro attuale:
SIOPE, gia' repo progetto dedicata
dataciviclab: hub pubblico, Discussions, issue,analisi/dataset-incubator: contratto tecnico permanente dei filoni- repo progetto: lavoro su filoni con sviluppo continuativo
Gli output del toolkit vivono sotto out/ e non devono essere versionati.
Regola pratica:
- usa
out/data/...per il runtime reale - usa
registry/e le cartellecandidates/,support_datasets/per il contenuto della repo
I workflow ricorrenti e propri di dataset-incubator stanno in:
Per ora: