Le contenu de ce site a été traduit à l'aide de l'intelligence artificielle (IA) ou d'une technologie de traduction automatique, et peut contenir des erreurs.

Skip to content
Data Science

Détection automatisée des opportunités d'inférence causale : découverte de sous-groupes par discontinuité de régression

Author

Tony Liu (Université de Pennsylvanie et Roblox), Patrick Lawlor (Hôpital pour enfants de Philadelphie), Lyle Ungar (Université de Pennsylvanie), Konrad Kording (Université de Pennsylvanie), Rahul Ladhania (Université du Michigan)

Venue

ICML IMLH (non archivistique), TMLR

Abstract

La référence absolue pour l'identification des effets causaux est l'essai contrôlé randomisé (ECR), mais il n'est pas toujours possible de mener de tels essais. Cependant, lorsque les traitements dépendent d'un seuil, comme le seuil de glycémie pour le diagnostic du diabète, il est parfois possible d'estimer les effets causaux à l'aide de régressions discontinues (RD). Les RD sont valables lorsque les unités situées juste au-dessus et juste en dessous du seuil présentent la même distribution des covariables et qu'il n'y a donc pas de confusion en présence de bruit, ce qui établit une randomisation « comme si ». Dans la pratique, cependant, la mise en œuvre d'études RD peut s'avérer difficile, car l'identification des seuils de traitement nécessite une expertise considérable dans le domaine. De plus, les seuils peuvent varier d'un sous-groupe à l'autre (par exemple, le seuil de glycémie pour le diabète peut varier selon les caractéristiques démographiques), et ignorer ces différences peut réduire la puissance statistique. Déterminer les seuils et à qui ils s'appliquent est un problème important actuellement résolu manuellement par des experts du domaine, et des approches fondées sur les données sont nécessaires lorsque l'expertise du domaine n'est pas suffisante. Nous présentons ici la méthode RDSGD (Regression Discontinuity SubGroup Discovery), une méthode d'apprentissage automatique qui identifie des sous-groupes statistiquement puissants et interprétables pour les seuils de RD. À partir d'un ensemble de données de demandes de remboursement médical portant sur plus de 60 millions de patients, nous appliquons la RDSGD à de multiples contextes cliniques et identifions des sous-groupes présentant une meilleure conformité aux seuils d'attribution des traitements. Les seuils de traitement étant déterminants pour de nombreuses maladies et décisions politiques, la RDSGD peut constituer un outil puissant pour découvrir de nouvelles voies d'estimation causale.