本网站内容使用人工智能(AI)或机器翻译技术翻译,可能存在错误。

Skip to content
Data Science

因果推断机会的自动检测:回归断点法中的亚组发现

Author

刘东(宾夕法尼亚大学和Roblox)、帕特里克·劳勒(费城儿童医院)、莱尔·昂加尔(宾夕法尼亚大学)、康拉德·科丁(宾夕法尼亚大学)、拉胡尔·拉达尼亚(密歇根大学)

Venue

ICML、IMLH(非存档类)、TMLR

Abstract

识别因果效应的金标准是随机对照试验(RCT),但RCT未必总能实施。然而,当治疗方案取决于某个阈值时(例如糖尿病诊断的血糖阈值),我们有时仍可通过回归不连续性(RD)方法估计因果效应。 当阈值上下相邻的样本在协变量分布上保持一致,且在存在噪声的情况下不存在混杂因素时,RD方法即成立,从而建立一种“假定随机化”的情形。但在实践中,实施RD研究可能面临困难,因为确定干预阈值需要相当程度的领域专业知识——此外,不同亚组间的阈值可能存在差异(例如,不同人口统计特征群体中糖尿病的血糖阈值可能不同),而忽略这些差异会降低统计功效。 确定阈值及其适用对象是一项重要课题,目前主要由领域专家手动解决;当领域专业知识不足时,则需要数据驱动的方法。本文提出“回归不连续性亚组发现”(RDSGD)——一种能够为RD阈值识别出统计功效高且可解释的亚组的机器学习方法。 我们利用包含超过6000万名患者的医疗索赔数据集,将RDSGD应用于多种临床场景,并识别出在治疗分配阈值下依从性更高的亚组。鉴于治疗阈值对许多疾病及政策决策至关重要,RDSGD可成为发现因果推断新途径的强大工具。