Phát hiện tự động các cơ hội suy luận nhân quả: Phát hiện nhóm con trong phân tích gián đoạn hồi quy
Author
Venue
ICML IMLH (không lưu trữ), TMLR
Abstract
Tiêu chuẩn vàng để xác định các tác động nhân quả là các thử nghiệm ngẫu nhiên có đối chứng (RCT), nhưng không phải lúc nào cũng có thể thực hiện được các RCT. Tuy nhiên, khi các phương pháp điều trị phụ thuộc vào một ngưỡng nhất định, chẳng hạn như ngưỡng đường huyết để chẩn đoán bệnh tiểu đường, đôi khi chúng ta vẫn có thể ước tính các tác động nhân quả bằng phương pháp hồi quy gián đoạn (RD). RD là hợp lệ khi các đơn vị ngay trên và dưới ngưỡng có cùng phân phối các biến số và do đó không có yếu tố nhiễu trong điều kiện có nhiễu, tạo ra một tình huống ngẫu nhiên giả định. Tuy nhiên, trên thực tế, việc thực hiện các nghiên cứu RD có thể khó khăn vì việc xác định ngưỡng điều trị đòi hỏi chuyên môn sâu về lĩnh vực này -- hơn nữa, các ngưỡng có thể khác nhau giữa các nhóm phụ (ví dụ: ngưỡng đường huyết để chẩn đoán bệnh tiểu đường có thể khác nhau giữa các nhóm dân số), và việc bỏ qua những khác biệt này có thể làm giảm sức mạnh thống kê. Việc xác định các ngưỡng và đối tượng áp dụng là một vấn đề quan trọng hiện đang được giải quyết thủ công bởi các chuyên gia trong lĩnh vực, và các phương pháp dựa trên dữ liệu là cần thiết khi kiến thức chuyên môn không đủ. Ở đây, chúng tôi giới thiệu Regression Discontinuity SubGroup Discovery (RDSGD), một phương pháp học máy giúp xác định các nhóm con có sức mạnh thống kê cao và dễ giải thích cho các ngưỡng RD. Sử dụng bộ dữ liệu yêu cầu bồi thường y tế với hơn 60 triệu bệnh nhân, chúng tôi áp dụng RDSGD vào nhiều bối cảnh lâm sàng và xác định các nhóm con có mức tuân thủ cao hơn đối với các ngưỡng phân bổ điều trị. Vì các ngưỡng điều trị có ý nghĩa quan trọng đối với nhiều bệnh tật và quyết định chính sách, RDSGD có thể là một công cụ mạnh mẽ để khám phá các hướng tiếp cận mới cho việc ước lượng nhân quả.
