इस साइट की सामग्री का अनुवाद कृत्रिम बुद्धिमत्ता (AI) या मशीन अनुवाद तकनीक का उपयोग करके किया गया है, और इसमें त्रुटियाँ हो सकती हैं.

Skip to content
Data Science

कारण-निष्कर्षण के अवसरों का स्वचालित पता लगाना: प्रतिगमन विराम उपसमूह की खोज

Author

टोनी लियू (यू. पेन और रॉब्लॉक्स), पैट्रिक लॉफलर (फिलाडेल्फिया चिल्ड्रन्स हॉस्पिटल), लाइल उंगर (यू. पेन), कोनराड कॉर्डिंग (यू. पेन), राहुल लाधानिया (यू. मिशिगन)

Venue

ICML IMLH (गैर-संग्रह), TMLR

Abstract

कारणिक प्रभावों की पहचान के लिए स्वर्ण मानक यादृच्छिक नियंत्रित परीक्षण (RCT) हैं, लेकिन RCT करना हमेशा संभव नहीं हो पाता। हालांकि, जब उपचार किसी सीमा पर निर्भर करते हैं, जैसे मधुमेह निदान के लिए रक्त शर्करा की सीमा, तब भी हम कभी-कभी प्रतिगमन विरामों (RDs) के साथ कारणिक प्रभावों का अनुमान लगा सकते हैं। आरडी (RDs) तब मान्य होते हैं जब सीमा के ठीक ऊपर और नीचे की इकाइयों के सह-चर (covariates) का वितरण समान होता है और इस प्रकार शोर (noise) की उपस्थिति में कोई भ्रमित करने वाला कारक (confounding) नहीं होता, जिससे एक प्रकार का यादृच्छिकीकरण (randomization) स्थापित होता है। हालाँकि, व्यवहार में, आरडी (RD) अध्ययनों को लागू करना मुश्किल हो सकता है क्योंकि उपचार की सीमाओं की पहचान करने के लिए पर्याप्त डोमेन विशेषज्ञता की आवश्यकता होती है -- इसके अलावा, सीमाएं उपसमूहों (subgroups) में भिन्न हो सकती हैं (उदाहरण के लिए, मधुमेह के लिए रक्त शर्करा की सीमा जनसांख्यिकी के आधार पर भिन्न हो सकती है), और इन अंतरों को अनदेखा करने से सांख्यिकीय शक्ति कम हो सकती है। सीमाओं को खोजना और वे किस पर लागू होती हैं, यह एक महत्वपूर्ण समस्या है जिसे वर्तमान में डोमेन विशेषज्ञों द्वारा मैन्युअल रूप से हल किया जाता है, और जब डोमेन विशेषज्ञता पर्याप्त नहीं होती है तो डेटा-संचालित दृष्टिकोणों की आवश्यकता होती है। यहां, हम रिग्रेशन डिस्कंटीन्यूटी सबग्रुप डिस्कवरी (RDSGD) पेश करते हैं, जो एक मशीन-लर्निंग विधि है जो RD सीमाओं के लिए सांख्यिकीय रूप से शक्तिशाली और व्याख्या योग्य उपसमूहों की पहचान करती है। 60 मिलियन से अधिक रोगियों वाले एक चिकित्सा दावों के डेटासेट का उपयोग करते हुए, हम RDSGD को कई नैदानिक संदर्भों में लागू करते हैं और उपचार असाइनमेंट थ्रेशोल्ड के प्रति बढ़ी हुई अनुपालन वाले उपसमूहों की पहचान करते हैं। चूंकि कई बीमारियों और नीतिगत निर्णयों के लिए उपचार थ्रेशोल्ड महत्वपूर्ण हैं, इसलिए RDSGD कारणानुमान के लिए नए रास्ते खोजने का एक शक्तिशाली उपकरण हो सकता है।