intake: aggiungi candidate istat-housing-crowding by Gabrymi93 · Pull Request #104 · dataciviclab/dataset-incubator

Gabrymi93 · 2026-03-31T17:33:58Z

Closes #103.

Contesto

Primo pilot reale post-merge del plugin sdmx su un candidate dataset-incubator.

Il candidate usa il dataflow ISTAT SDMX 33_179 con un perimetro v0 stretto e difendibile:

REF_AREA = IT
TENURE_STATUS = rent vs property
altre dimensioni su totale

Cosa contiene

candidate istat-housing-crowding
README.md e notes.md con framing semantico e rischi tecnici
clean.sql e mart.sql
notebook v0 eseguibile

Note metodologiche

il candidate usa un indicatore di densita abitativa media, non il tasso EU-SILC binario di sovraffollamento
il file raw e partizionato su 2024 per il runtime, ma il fetch SDMX porta la serie storica completa
nel candidate e' forzato esploradati.istat.it per metadata e data, perche' nel pilot e' risultato il path piu stabile per questo flow

Verifiche

Eseguito sanity check reale con toolkit aggiornato su main:

toolkit inspect_paths ok
toolkit run all --config candidates/istat-housing-crowding/dataset.yml --years 2024 verde
mart prodotto: 42 righe
serie: 2004 -> 2024
notebook v0 rieseguito

Follow-up naturale

verificare se il flow regge un allargamento oltre IT
capire se il fetch multi-area e' stabile abbastanza per una v1 regionale

Gabrymi93 · 2026-03-31T17:51:10Z

Findings

Low

candidates/istat-housing-crowding/dataset.yml: Il campo years: [2024] è usato correttamente come perimetro di esecuzione per il toolkit, ma poiché il plugin SDMX scarica l'intera serie storica, il mart risultante contiene dati dal 2004 al 2024 (come documentato nel notebook). È un pattern noto del toolkit per le serie storiche fetched in blocco, ma va tenuto a mente per la futura visualizzazione in catalogo.

Metodo e Modellazione

Il candidate è estremamente solido dal punto di vista metodologico:

Distinzione Semantica: Viene esplicitato chiaramente (nel README e nelle note) che l'indicatore usato è la densità abitativa media (componenti per 100mq) e non il tasso di sovraffollamento binario EU-SILC. Questo previene interpretazioni errate dei risultati civici.
Hardening della Fonte: La scelta di forzare l'endpoint esploradati.istat.it nel dataset.yml è una decisione tecnica pragmatica basata sull'evidenza del pilot (più stabile per questo specifico flow).
Contratto Tecnico: Gli SQL di clean e mart sono puliti, eseguono cast espliciti e producono un output di 42 righe (21 anni x 2 tipologie di godimento), ideale per una visualizzazione v0.

Verifiche

toolkit inspect_paths: Coerente con la struttura del Lab.
notebooks/istat_housing_crowding_v0.ipynb: Presente e funzionante, con output che mostrano graficamente il gap strutturale tra affitto e proprietà in Italia (densità costantemente più alta per chi è in affitto).

Verdict

Tip

Verdict: merge

Il candidate è "ready-to-go". È un eccellente esempio di come gestire la transizione da scouting a incubazione tecnica usando i nuovi strumenti del toolkit.

Review effettuata seguendo la skill canonica review-pr (lab-ops v1.1).

Gabrymi93 · 2026-04-03T12:43:30Z

Review — intake pilot / istat-housing-crowding

Lens: dataset-incubator + intake. Diff letto integralmente (6 file, 768 righe aggiunte).

Findings

Critical: nessuno

Medium: nessuno

Low:

sql/mart.sql - Il filtro ref_area_codice = 'IT' e titolo_godimento_codice in ('1', '2') replica i filtri gia' dichiarati nel dataset.yml. Non e' un bug, e' defensible, ma ridondante: se il perimetro cambia in v1 va aggiornato in due posti.
dataset.yml (mart.validate.min_rows: 35) - Con 42 righe prodotte (21 anni x 2 tenure), il threshold e' ragionevole ma stretto. Se l'API SDMX riducesse la serie di 4+ anni in un re-run futuro, la validazione fallirebbe. Non blocca il v0, da monitorare.

Open questions

L'endpoint esploradati.istat.it e' documentato come workaround per il 500 su sdmx.istat.it. Non c'e' un fallback automatico - se l'endpoint cambia il candidate si rompe senza alert. Accettabile per ora, ma da tenere in radar in source-observatory.

Verdict: merge

Candidate runnable, run verde verificato, mart stabile (42 righe, 2004-2024), nota semantica corretta (ABITAZ_AFFOLL_MED != tasso EU-SILC binario di sovraffollamento), rischi tecnici documentati in notes.md. Perimetro v0 stretto e difendibile. Discussion #170 gia' pubblicata - il candidate arriva nella sequenza giusta.

Gabrymi93 added 3 commits March 31, 2026 16:12

pilot: add istat housing crowding SDMX candidate

f2ed88d

pilot: tighten istat housing crowding candidate

48b4500

istat-housing-crowding: move analytical cut to mart

cad6768

Gabrymi93 marked this pull request as ready for review March 31, 2026 17:46

Gabrymi93 enabled auto-merge (squash) March 31, 2026 17:46

Gabrymi93 requested review from Lore222 and matteocavo April 3, 2026 12:44

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

intake: aggiungi candidate istat-housing-crowding#104

intake: aggiungi candidate istat-housing-crowding#104
Gabrymi93 wants to merge 3 commits intomainfrom
pilot/istat-housing-crowding

Gabrymi93 commented Mar 31, 2026

Uh oh!

Gabrymi93 commented Mar 31, 2026

Uh oh!

Gabrymi93 commented Apr 3, 2026

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant

Conversation

Gabrymi93 commented Mar 31, 2026

Contesto

Cosa contiene

Note metodologiche

Verifiche

Follow-up naturale

Uh oh!

Gabrymi93 commented Mar 31, 2026

Findings

Metodo e Modellazione

Verifiche

Verdict

Uh oh!

Gabrymi93 commented Apr 3, 2026

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant