कारणनिष्कर्ष संधींचे स्वयंचलित शोध: प्रतिगमन विराम उपसमूह शोध
Author
Venue
ICML IMLH (गैर-संग्रह), TMLR
Abstract
कारणात्मक परिणामांची ओळख पटविण्यासाठी सोनेरी मानक म्हणजे यादृच्छिक नियंत्रित चाचण्या (RCT), परंतु RCT नेहमीच पार पडणे शक्य नसते. तथापि, जेव्हा उपचार एखाद्या थ्रेशोल्डवर अवलंबून असतात, जसे की मधुमेहाच्या निदानासाठी रक्तातील साखरेची मर्यादा, तेव्हाही आपण कधीकधी प्रतिगमन विराम (RDs) वापरून कारणात्मक परिणामांचा अंदाज लावू शकतो. जेव्हा थ्रेशोल्डच्या अगदी वर आणि खाली असलेल्या युनिट्समध्ये सहचर चलांचे वितरण समान असते आणि त्यामुळे शोर (noise) असतानाही कोणताही गोंधळ (confounding) होत नाही, तेव्हा RD वैध ठरतात, ज्यामुळे एक प्रकारे यादृच्छिकीकरण (as-if randomization) होते. तथापि, प्रत्यक्षात RD अभ्यास राबवणे कठीण असू शकते कारण उपचार थ्रेशोल्ड ओळखण्यासाठी मोठ्या प्रमाणात क्षेत्रीय तज्ज्ञतेची (domain expertise) आवश्यकता असते -- याव्यतिरिक्त, उपगटांमध्ये (उदा. मधुमेहासाठी रक्तातील साखरेची मर्यादा लोकसंख्याशास्त्रीय गटांनुसार वेगळी असू शकते) थ्रेशोल्ड भिन्न असू शकतात, आणि या फरकांकडे दुर्लक्ष केल्यास सांख्यिकीय सामर्थ्य (statistical power) कमी होऊ शकते. सीमा आणि त्या कोणावर लागू होतात हे शोधणे ही एक महत्त्वाची समस्या आहे जी सध्या क्षेत्रतज्ञांद्वारे हाताने सोडवली जाते, आणि जेव्हा क्षेत्रतज्ञतेची पुरेशी माहिती नसते तेव्हा डेटा-चालित पद्धती आवश्यक असतात. येथे, आम्ही रिग्रेशन डिस्कंटीन्युटी सबग्रुप डिस्कव्हरी (RDSGD) या मशीन-लर्निंग पद्धतीची ओळख करून देतो, जी RD सीमांसाठी सांख्यिकीयदृष्ट्या शक्तिशाली आणि अर्थपूर्ण उपसमूह ओळखते. 60 दशलक्षाहून अधिक रुग्णांचा वैद्यकीय दाव्यांचा डेटासेट वापरून, आम्ही RDSGD अनेक क्लिनिकल संदर्भांमध्ये लागू करतो आणि उपचार नियुक्तीच्या थ्रेशोल्ड्सचे पालन वाढवणाऱ्या उपसमूहांना ओळखतो. उपचार थ्रेशोल्ड्स अनेक आजारांसाठी आणि धोरणात्मक निर्णयांसाठी महत्त्वाचे असल्यामुळे, RDSGD हे कारणीभूत अंदाजामध्ये नवीन मार्ग शोधण्यासाठी एक सामर्थ्यवान साधन ठरू शकते.
