El contenido de este sitio se ha traducido mediante inteligencia artificial (IA) o tecnología de traducción automática, y puede contener errores.

Skip to content
Data Science

Detección automatizada de oportunidades de inferencia causal: descubrimiento de subgrupos mediante discontinuidad de regresión

Author

Tony Liu (Universidad de Pensilvania y Roblox), Patrick Lawlor (Hospital Infantil de Filadelfia), Lyle Ungar (Universidad de Pensilvania), Konrad Kording (Universidad de Pensilvania), Rahul Ladhania (Universidad de Michigan)

Venue

ICML IMLH (no archivística), TMLR

Abstract

El método de referencia para la identificación de efectos causales son los ensayos controlados aleatorios (ECA), pero no siempre es factible llevarlos a cabo. Sin embargo, cuando los tratamientos dependen de un umbral, como el umbral de glucemia para el diagnóstico de la diabetes, a veces aún podemos estimar los efectos causales mediante regresiones discontinuas (RD). Las RD son válidas cuando las unidades justo por encima y por debajo del umbral tienen la misma distribución de covariables y, por lo tanto, no hay factores de confusión en presencia de ruido, lo que establece una aleatorización «como si». Sin embargo, en la práctica, la implementación de estudios de RD puede resultar difícil, ya que la identificación de los umbrales de tratamiento requiere una considerable experiencia en el ámbito; además, los umbrales pueden diferir entre subgrupos (por ejemplo, el umbral de glucemia para la diabetes puede variar según los grupos demográficos), e ignorar estas diferencias puede reducir la potencia estadística. Encontrar los umbrales y a quiénes se aplican es un problema importante que actualmente resuelven manualmente los expertos en la materia, y se necesitan enfoques basados en datos cuando los conocimientos especializados no son suficientes. Aquí presentamos el Regression Discontinuity SubGroup Discovery (RDSGD), un método de aprendizaje automático que identifica subgrupos estadísticamente potentes e interpretables para los umbrales de RD. Utilizando un conjunto de datos de reclamaciones médicas con más de 60 millones de pacientes, aplicamos el RDSGD a múltiples contextos clínicos e identificamos subgrupos con un mayor cumplimiento de los umbrales de asignación de tratamiento. Dado que los umbrales de tratamiento son importantes para muchas enfermedades y decisiones políticas, el RDSGD puede ser una herramienta poderosa para descubrir nuevas vías de estimación causal.