Die Inhalte dieser Website wurden mithilfe künstlicher Intelligenz (KI) oder maschineller Übersetzungstechnologie übersetzt und können Fehler enthalten.

Skip to content
Data Science

Automatische Erkennung von Möglichkeiten zur Kausalinferenz: Identifizierung von Untergruppen bei Regressionsdiskontinuitäten

Author

Tony Liu (Universität Pennsylvania und Roblox), Patrick Lawlor (Kinderkrankenhaus Philadelphia), Lyle Ungar (Universität Pennsylvania), Konrad Kording (Universität Pennsylvania), Rahul Ladhania (Universität Michigan)

Venue

ICML IMLH (nicht archiviert), TMLR

Abstract

Der Goldstandard für die Identifizierung kausaler Effekte sind randomisierte kontrollierte Studien (RCT), doch deren Durchführung ist nicht immer möglich. Wenn Behandlungen jedoch von einem Schwellenwert abhängen, wie beispielsweise dem Blutzucker-Schwellenwert für die Diabetesdiagnose, können wir kausale Effekte manchmal dennoch mit Hilfe von Regressionsdiskontinuitäten (RD) schätzen. RD sind gültig, wenn Einheiten knapp oberhalb und unterhalb des Schwellenwerts dieselbe Verteilung der Kovariaten aufweisen und somit bei Vorhandensein von Rauschen keine Störfaktoren vorliegen, wodurch eine „Als-ob-Randomisierung“ entsteht. In der Praxis kann die Durchführung von RD-Studien jedoch schwierig sein, da die Identifizierung von Behandlungsschwellenwerten beträchtliches Fachwissen erfordert – darüber hinaus können sich die Schwellenwerte zwischen Untergruppen unterscheiden (z. B. kann der Blutzuckerschwellenwert für Diabetes je nach demografischer Gruppe variieren), und das Ignorieren dieser Unterschiede kann die statistische Aussagekraft verringern. Das Ermitteln der Schwellenwerte und der Personen, für die sie gelten, ist ein wichtiges Problem, das derzeit manuell von Fachexperten gelöst wird; datengestützte Ansätze sind erforderlich, wenn Fachwissen nicht ausreicht. Hier stellen wir Regression Discontinuity SubGroup Discovery (RDSGD) vor, eine Methode des maschinellen Lernens, die statistisch aussagekräftige und interpretierbare Untergruppen für RD-Schwellenwerte identifiziert. Anhand eines Datensatzes zu medizinischen Leistungsansprüchen mit über 60 Millionen Patienten wenden wir RDSGD auf verschiedene klinische Kontexte an und identifizieren Untergruppen mit erhöhter Einhaltung von Schwellenwerten für die Behandlungszuweisung. Da Behandlungsschwellenwerte für viele Krankheiten und politische Entscheidungen von Bedeutung sind, kann RDSGD ein leistungsstarkes Werkzeug sein, um neue Wege für die Kausalschätzung zu erschließen.