Detecção automatizada de oportunidades de inferência causal: descoberta de subgrupos por descontinuidade de regressão
Author
Venue
ICML IMLH (não arquivística), TMLR
Abstract
O padrão-ouro para a identificação de efeitos causais são os ensaios clínicos randomizados (ECR), mas nem sempre é viável realizá-los. No entanto, quando os tratamentos dependem de um limiar, como o nível de glicemia para o diagnóstico de diabetes, ainda podemos, em alguns casos, estimar efeitos causais com regressões por descontinuidade (RD). As RDs são válidas quando as unidades logo acima e abaixo do limiar apresentam a mesma distribuição de covariáveis e, portanto, não há confusão na presença de ruído, estabelecendo uma randomização hipotética. Na prática, porém, a implementação de estudos de RD pode ser difícil, pois a identificação de limiares de tratamento requer considerável conhecimento especializado na área — além disso, os limiares podem diferir entre subgrupos (por exemplo, o limiar de glicemia para diabetes pode variar entre grupos demográficos), e ignorar essas diferenças pode reduzir o poder estatístico. Encontrar os limiares e a quem eles se aplicam é um problema importante atualmente resolvido manualmente por especialistas na área, e abordagens baseadas em dados são necessárias quando o conhecimento especializado não é suficiente. Aqui, apresentamos a Descoberta de Subgrupos por Discontinuidade de Regressão (RDSGD), um método de aprendizado de máquina que identifica subgrupos estatisticamente poderosos e interpretáveis para limiares de RD. Utilizando um conjunto de dados de registros médicos com mais de 60 milhões de pacientes, aplicamos o RDSGD a múltiplos contextos clínicos e identificamos subgrupos com maior adesão aos limiares de atribuição de tratamento. Como os limiares de tratamento são importantes para muitas doenças e decisões políticas, o RDSGD pode ser uma ferramenta poderosa para descobrir novos caminhos para a estimativa causal.
