Rilevamento automatico delle opportunità di inferenza causale: individuazione di sottogruppi mediante discontinuità di regressione
Author
Venue
ICML IMLH (non d'archivio), TMLR
Abstract
Il gold standard per l'identificazione degli effetti causali sono gli studi randomizzati controllati (RCT), ma non sempre è possibile condurli. Tuttavia, quando i trattamenti dipendono da una soglia, come ad esempio la soglia glicemica per la diagnosi del diabete, a volte è comunque possibile stimare gli effetti causali con le discontinuità di regressione (RD). Le RD sono valide quando le unità appena al di sopra e al di sotto della soglia hanno la stessa distribuzione delle covariate e quindi non vi è alcuna confondibilità in presenza di rumore, stabilendo una randomizzazione "come se". In pratica, tuttavia, l'implementazione di studi RD può essere difficile poiché l'identificazione delle soglie di trattamento richiede una notevole competenza nel settore; inoltre, le soglie possono differire tra i sottogruppi (ad esempio, la soglia glicemica per il diabete può variare a seconda dei dati demografici) e ignorare queste differenze può ridurre la potenza statistica. Individuare le soglie e a chi si applicano è un problema importante attualmente risolto manualmente da esperti del settore, e sono necessari approcci basati sui dati quando la competenza nel settore non è sufficiente. Qui introduciamo il Regression Discontinuity SubGroup Discovery (RDSGD), un metodo di machine learning che identifica sottogruppi statisticamente potenti e interpretabili per le soglie RD. Utilizzando un set di dati di richieste di rimborso medico con oltre 60 milioni di pazienti, applichiamo l'RDSGD a diversi contesti clinici e identifichiamo sottogruppi con una maggiore aderenza alle soglie di assegnazione del trattamento. Poiché le soglie di trattamento sono importanti per molte malattie e decisioni politiche, l'RDSGD può essere uno strumento potente per scoprire nuove vie per la stima causale.
