本網站內容使用人工智慧(AI)或機器翻譯技術翻譯,可能存在錯誤。

Skip to content
Data Science

因果推論機會的自動偵測:迴歸斷點分析中的亞群發現

Author

劉東尼(賓夕法尼亞大學與 Roblox)、派翠克・勞勒(費城兒童醫院)、萊爾・昂加(賓夕法尼亞大學)、康拉德・科丁(賓夕法尼亞大學)、拉胡爾・拉達尼亞(密西根大學)

Venue

ICML、IMLH(非存檔類)、TMLR

Abstract

識別因果效應的黃金標準是隨機對照試驗(RCT),但RCT未必總是可行。然而,當治療取決於某個閾值時(例如糖尿病診斷的血糖閾值),我們有時仍可透過回歸不連續性(RD)來估計因果效應。 當閾值上下相鄰的單位具有相同的共變量分佈,且在存在雜訊的情況下不存在混雜因素時,RD 即為有效的,這便建立了一種「假設隨機化」的假設。然而在實務上,實施 RD 研究可能相當困難,因為識別治療閾值需要相當程度的領域專業知識——此外,閾值可能因次群體而異(例如,糖尿病的血糖閾值可能因人口統計特徵而異),而忽略這些差異可能會降低統計功效。 確定閾值及其適用對象是一項重要課題,目前主要由領域專家手動解決;當領域專業知識不足時,則需要數據驅動的方法。在此,我們介紹「迴歸不連續性亞群發現」(RDSGD),這是一種機器學習方法,能為 RD 閾值識別出統計功效強且具解釋性的亞群。 我們利用包含超過 6,000 萬名患者的醫療理賠資料集,將 RDSGD 應用於多種臨床情境,並識別出對治療分配閾值遵從度較高的亞群。由於治療閾值對許多疾病及政策決策至關重要,RDSGD 將成為發掘因果推估新途徑的強大工具。