Skip to content

intake: aggiungi candidate istat-housing-crowding#104

Open
Gabrymi93 wants to merge 3 commits intomainfrom
pilot/istat-housing-crowding
Open

intake: aggiungi candidate istat-housing-crowding#104
Gabrymi93 wants to merge 3 commits intomainfrom
pilot/istat-housing-crowding

Conversation

@Gabrymi93
Copy link
Copy Markdown
Member

Closes #103.

Contesto

Primo pilot reale post-merge del plugin sdmx su un candidate dataset-incubator.

Il candidate usa il dataflow ISTAT SDMX 33_179 con un perimetro v0 stretto e difendibile:

  • REF_AREA = IT
  • TENURE_STATUS = rent vs property
  • altre dimensioni su totale

Cosa contiene

  • candidate istat-housing-crowding
  • README.md e notes.md con framing semantico e rischi tecnici
  • clean.sql e mart.sql
  • notebook v0 eseguibile

Note metodologiche

  • il candidate usa un indicatore di densita abitativa media, non il tasso EU-SILC binario di sovraffollamento
  • il file raw e partizionato su 2024 per il runtime, ma il fetch SDMX porta la serie storica completa
  • nel candidate e' forzato esploradati.istat.it per metadata e data, perche' nel pilot e' risultato il path piu stabile per questo flow

Verifiche

Eseguito sanity check reale con toolkit aggiornato su main:

  • toolkit inspect_paths ok
  • toolkit run all --config candidates/istat-housing-crowding/dataset.yml --years 2024 verde
  • mart prodotto: 42 righe
  • serie: 2004 -> 2024
  • notebook v0 rieseguito

Follow-up naturale

  • verificare se il flow regge un allargamento oltre IT
  • capire se il fetch multi-area e' stabile abbastanza per una v1 regionale

@Gabrymi93 Gabrymi93 marked this pull request as ready for review March 31, 2026 17:46
@Gabrymi93 Gabrymi93 enabled auto-merge (squash) March 31, 2026 17:46
@Gabrymi93
Copy link
Copy Markdown
Member Author

Findings

Low

  • candidates/istat-housing-crowding/dataset.yml: Il campo years: [2024] è usato correttamente come perimetro di esecuzione per il toolkit, ma poiché il plugin SDMX scarica l'intera serie storica, il mart risultante contiene dati dal 2004 al 2024 (come documentato nel notebook). È un pattern noto del toolkit per le serie storiche fetched in blocco, ma va tenuto a mente per la futura visualizzazione in catalogo.

Metodo e Modellazione

Il candidate è estremamente solido dal punto di vista metodologico:

  1. Distinzione Semantica: Viene esplicitato chiaramente (nel README e nelle note) che l'indicatore usato è la densità abitativa media (componenti per 100mq) e non il tasso di sovraffollamento binario EU-SILC. Questo previene interpretazioni errate dei risultati civici.
  2. Hardening della Fonte: La scelta di forzare l'endpoint esploradati.istat.it nel dataset.yml è una decisione tecnica pragmatica basata sull'evidenza del pilot (più stabile per questo specifico flow).
  3. Contratto Tecnico: Gli SQL di clean e mart sono puliti, eseguono cast espliciti e producono un output di 42 righe (21 anni x 2 tipologie di godimento), ideale per una visualizzazione v0.

Verifiche

  • toolkit inspect_paths: Coerente con la struttura del Lab.
  • notebooks/istat_housing_crowding_v0.ipynb: Presente e funzionante, con output che mostrano graficamente il gap strutturale tra affitto e proprietà in Italia (densità costantemente più alta per chi è in affitto).

Verdict

Tip

Verdict: merge

Il candidate è "ready-to-go". È un eccellente esempio di come gestire la transizione da scouting a incubazione tecnica usando i nuovi strumenti del toolkit.


Review effettuata seguendo la skill canonica review-pr (lab-ops v1.1).

@Gabrymi93
Copy link
Copy Markdown
Member Author

Review — intake pilot / istat-housing-crowding

Lens: dataset-incubator + intake. Diff letto integralmente (6 file, 768 righe aggiunte).


Findings

Critical: nessuno

Medium: nessuno

Low:

  • sql/mart.sql - Il filtro ref_area_codice = 'IT' e titolo_godimento_codice in ('1', '2') replica i filtri gia' dichiarati nel dataset.yml. Non e' un bug, e' defensible, ma ridondante: se il perimetro cambia in v1 va aggiornato in due posti.
  • dataset.yml (mart.validate.min_rows: 35) - Con 42 righe prodotte (21 anni x 2 tenure), il threshold e' ragionevole ma stretto. Se l'API SDMX riducesse la serie di 4+ anni in un re-run futuro, la validazione fallirebbe. Non blocca il v0, da monitorare.

Open questions

  • L'endpoint esploradati.istat.it e' documentato come workaround per il 500 su sdmx.istat.it. Non c'e' un fallback automatico - se l'endpoint cambia il candidate si rompe senza alert. Accettabile per ora, ma da tenere in radar in source-observatory.

Verdict: merge

Candidate runnable, run verde verificato, mart stabile (42 righe, 2004-2024), nota semantica corretta (ABITAZ_AFFOLL_MED != tasso EU-SILC binario di sovraffollamento), rischi tecnici documentati in notes.md. Perimetro v0 stretto e difendibile. Discussion #170 gia' pubblicata - il candidate arriva nella sequenza giusta.

@Gabrymi93 Gabrymi93 requested review from Lore222 and matteocavo April 3, 2026 12:44
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

intake: istat-housing-crowding

1 participant