인과 추론 기회의 자동 탐지: 회귀 불연속성 하위집단 발견
Author
Venue
ICML, IMLH (비보관용), TMLR
Abstract
인과 효과를 규명하는 데 있어 가장 확실한 기준은 무작위 대조 시험(RCT)이지만, RCT를 수행하는 것이 항상 가능한 것은 아닙니다. 그러나 당뇨병 진단을 위한 혈당 기준치와 같이 치료가 특정 기준치에 의존하는 경우, 회귀 불연속성(RD)을 통해 인과 효과를 추정할 수 있는 경우가 있습니다. RD는 임계값 바로 위와 아래에 위치한 단위들이 공변량의 분포가 동일하여 잡음이 존재하더라도 혼동 요인이 없으므로, '가상의 무작위화'를 확립할 때 유효합니다. 그러나 실제로는 치료 임계값을 식별하는 데 상당한 분야 전문 지식이 필요하기 때문에 RD 연구를 수행하는 것이 어려울 수 있습니다. 게다가 임계값은 하위 집단에 따라 다를 수 있으며(예: 당뇨병의 혈당 임계값은 인구통계학적 특성에 따라 다를 수 있음), 이러한 차이를 무시하면 통계적 검정력이 떨어질 수 있습니다. 임계값을 찾고 이를 적용할 대상을 파악하는 것은 현재 해당 분야 전문가들이 수동으로 해결하고 있는 중요한 문제이며, 분야 전문 지식이 충분하지 않을 때는 데이터 기반 접근법이 필요합니다. 이에 우리는 RD 임계값에 대해 통계적 검정력과 해석 가능성을 모두 갖춘 하위 집단을 식별하는 기계 학습 방법인 회귀 불연속성 하위 집단 발견(RDSGD)을 소개합니다. 6천만 명 이상의 환자가 포함된 의료 청구 데이터셋을 활용하여, 우리는 RDSGD를 다양한 임상 상황에 적용하고 치료 배정 기준치에 대한 준수도가 높은 하위 집단을 식별했다. 치료 기준치는 많은 질병 및 정책 결정에 중요한 역할을 하므로, RDSGD는 인과 관계 추정을 위한 새로운 방안을 발견하는 데 유용한 도구가 될 수 있다.
