कारण-निष्कर्षण के अवसरों का स्वचालित पता लगाना: प्रतिगमन विराम उपसमूह की खोज
Author
Venue
ICML IMLH (गैर-संग्रह), TMLR
Abstract
कारणिक प्रभावों की पहचान के लिए स्वर्ण मानक यादृच्छिक नियंत्रित परीक्षण (RCT) हैं, लेकिन RCT करना हमेशा संभव नहीं हो पाता। हालांकि, जब उपचार किसी सीमा पर निर्भर करते हैं, जैसे मधुमेह निदान के लिए रक्त शर्करा की सीमा, तब भी हम कभी-कभी प्रतिगमन विरामों (RDs) के साथ कारणिक प्रभावों का अनुमान लगा सकते हैं। आरडी (RDs) तब मान्य होते हैं जब सीमा के ठीक ऊपर और नीचे की इकाइयों के सह-चर (covariates) का वितरण समान होता है और इस प्रकार शोर (noise) की उपस्थिति में कोई भ्रमित करने वाला कारक (confounding) नहीं होता, जिससे एक प्रकार का यादृच्छिकीकरण (randomization) स्थापित होता है। हालाँकि, व्यवहार में, आरडी (RD) अध्ययनों को लागू करना मुश्किल हो सकता है क्योंकि उपचार की सीमाओं की पहचान करने के लिए पर्याप्त डोमेन विशेषज्ञता की आवश्यकता होती है -- इसके अलावा, सीमाएं उपसमूहों (subgroups) में भिन्न हो सकती हैं (उदाहरण के लिए, मधुमेह के लिए रक्त शर्करा की सीमा जनसांख्यिकी के आधार पर भिन्न हो सकती है), और इन अंतरों को अनदेखा करने से सांख्यिकीय शक्ति कम हो सकती है। सीमाओं को खोजना और वे किस पर लागू होती हैं, यह एक महत्वपूर्ण समस्या है जिसे वर्तमान में डोमेन विशेषज्ञों द्वारा मैन्युअल रूप से हल किया जाता है, और जब डोमेन विशेषज्ञता पर्याप्त नहीं होती है तो डेटा-संचालित दृष्टिकोणों की आवश्यकता होती है। यहां, हम रिग्रेशन डिस्कंटीन्यूटी सबग्रुप डिस्कवरी (RDSGD) पेश करते हैं, जो एक मशीन-लर्निंग विधि है जो RD सीमाओं के लिए सांख्यिकीय रूप से शक्तिशाली और व्याख्या योग्य उपसमूहों की पहचान करती है। 60 मिलियन से अधिक रोगियों वाले एक चिकित्सा दावों के डेटासेट का उपयोग करते हुए, हम RDSGD को कई नैदानिक संदर्भों में लागू करते हैं और उपचार असाइनमेंट थ्रेशोल्ड के प्रति बढ़ी हुई अनुपालन वाले उपसमूहों की पहचान करते हैं। चूंकि कई बीमारियों और नीतिगत निर्णयों के लिए उपचार थ्रेशोल्ड महत्वपूर्ण हैं, इसलिए RDSGD कारणानुमान के लिए नए रास्ते खोजने का एक शक्तिशाली उपकरण हो सकता है।
