การอนุมานเชิงสาเหตุโดยใช้ตัวแปรเครื่องมือ

นักวิทยาศาสตร์ข้อมูลมักพบว่าตัวเองต้องท่องคติประจำใจว่า "ความสัมพันธ์ไม่ได้หมายถึงการเป็นเหตุเป็นผล" อยู่เสมอ เป็นเรื่องดีที่เราจะเตือนผู้มีส่วนได้ส่วนเสียของเรา — และตัวเราเอง — อยู่เสมอ เพราะข้อมูลสามารถเป็นสิ่งที่อันตรายได้ และเพราะจิตใจของมนุษย์ไม่สามารถหลีกเลี่ยงการตีความหลักฐานทางสถิติในเชิงสาเหตุได้ แต่บางทีนี่อาจเป็นคุณสมบัติ ไม่ใช่ข้อบกพร่อง: เราแสวงหาการตีความเชิงสาเหตุโดยสัญชาตญาณ เพราะท้ายที่สุดแล้วนั่นคือสิ่งที่เราต้องการเพื่อตัดสินใจอย่างถูกต้อง หากปราศจากเรื่องราวเชิงสาเหตุเบื้องหลัง ความสัมพันธ์เชิงสหสัมพันธ์จะไม่เป็นประโยชน์มากนักสำหรับผู้ตัดสินใจ
แต่ในท้ายที่สุด สิ่งที่เราสามารถอ่านได้จากข้อมูลก็คือความสัมพันธ์ และมันเป็นเรื่องที่ท้าทายมากที่จะทำให้แน่ใจว่าเรื่องราวเชิงสาเหตุที่เราเชื่อมโยงกับความสัมพันธ์เหล่านี้เป็นความจริง และมีหลายวิธีที่เราอาจเข้าใจเรื่องราวเชิงสาเหตุผิดได้ ข้อผิดพลาดที่พบบ่อยที่สุดคือการไม่คำนึงถึงสาเหตุร่วมหรือปัจจัยรบกวน โดยใช้ตัวอย่างที่เป็นมาตรฐาน จะเห็นได้ว่ามีความสัมพันธ์เชิงบวกระหว่างการเข้ารักษาตัวในโรงพยาบาลกับการเสียชีวิต กล่าวคือ ผู้ที่เข้ารับการรักษาในโรงพยาบาลมีแนวโน้มที่จะเสียชีวิตมากกว่าผู้ที่ไม่ได้เข้ารับการรักษา หากเราละเลยข้อเท็จจริงที่ว่าการเจ็บป่วยสามารถทำให้เกิดทั้งการเข้ารักษาตัวในโรงพยาบาลและการเสียชีวิตได้ เราอาจสรุปเรื่องราวเชิงสาเหตุผิดไปว่า: โรงพยาบาลทำให้คนตาย
ข้อผิดพลาดทั่วไปอีกประการหนึ่งเกิดขึ้นเมื่อเรานำบทเรียนจากตัวแปรกวนมาใช้มากเกินไปและคำนึงถึงผลกระทบทั่วไปหรือตัวแปรร่วม ตัวอย่างนี้ดัดแปลงมาจากคำอธิบายของปริศนาของ Berkson ในหนังสือ Book of Why โดย Pearl และ Mackenzie สมมติว่าเรากำลังพยายามดูว่าการติดเชื้อ COVID-19 สามารถทำให้เกิดโรคเบาหวานได้หรือไม่ สมมติว่าในความเป็นจริงแล้วไม่มีความเชื่อมโยงเชิงสาเหตุดังกล่าว แต่ผู้ป่วยเบาหวานมีแนวโน้มที่จะเข้ารับการรักษาในโรงพยาบาลมากขึ้นหากติดเชื้อไวรัส ตอนนี้ ด้วยความกระตือรือร้นของเราในการพิจารณาปัจจัยรบกวนที่อาจเกิดขึ้น เราจึงตัดสินใจจำกัดการศึกษาของเราเฉพาะผู้ป่วยที่เข้ารับการรักษาในโรงพยาบาลเท่านั้น ซึ่งอาจทำให้เราสังเกตเห็นความสัมพันธ์ระหว่าง COVID-19 กับโรคเบาหวานได้ แม้ว่าจะไม่มีความเชื่อมโยงเชิงสาเหตุโดยตรงก็ตาม และหากเราไม่ระมัดระวังมากขึ้น เราอาจสร้างเรื่องเล่าเกี่ยวกับวิธีที่ COVID ทำให้เกิดโรคเบาหวานได้

หากเราพิจารณาเฉพาะประชากรที่เข้ารับการรักษาในโรงพยาบาล เราอาจสังเกตเห็นความสัมพันธ์ระหว่าง COVID-19 กับโรคเบาหวาน แม้ว่าจะไม่มีหลักฐานเชื่อมโยงทางสาเหตุโดยตรง และอาจสรุปอย่างไม่ถูกต้องว่า COVID-19 เป็นสาเหตุของโรคเบาหวาน
อีกวิธีหนึ่งที่เรื่องราวเชิงสาเหตุผิดพลาดคือการที่เราคำนึงถึงตัวกลาง เมื่อเรายังคงใช้หัวข้อที่น่าเศร้าของบล็อกโพสต์นี้ต่อไป สมมติว่าเรากำลังศึกษาว่าการสูบบุหรี่สามารถทำให้เสียชีวิตก่อนวัยอันควรได้จริงหรือไม่ หากเราคำนึงถึง/ปรับ/ควบคุมทุกวิถีทาง (เช่น มะเร็งปอด โรคหัวใจ) ที่การสูบบุหรี่สามารถนำไปสู่การเสียชีวิตได้ เราอาจพบความสัมพันธ์ระหว่างการสูบบุหรี่และการเสียชีวิตเพียงเล็กน้อยหรือไม่มีเลย แม้ว่าในความเป็นจริงการสูบบุหรี่จะเพิ่มอัตราการเสียชีวิตก็ตาม
"แล้วมันยากตรงไหนกันล่ะ!?" คุณอาจพูดว่า "แค่ปรับให้สอดคล้องกับตัวแปรกวนและละเว้นตัวแปรร่วมและตัวแปรกลาง!" การอนุมานเชิงสาเหตุนั้นยากเพราะประการแรก เราแทบจะไม่มีข้อมูลสำหรับตัวแปรกวนที่เป็นไปได้ทั้งหมด และประการที่สอง มักจะยากที่จะแยกแยะระหว่างตัวแปรร่วม ตัวแปรกลาง และตัวแปรกวน และบางครั้งความสัมพันธ์เชิงสาเหตุก็เกิดขึ้นในทั้งสองทิศทางและแทบจะเป็นไปไม่ได้เลยที่จะแยกแยะผลกระทบแบบสองทิศทางเหล่านี้
ตัวอย่าง Roblox
ดังนั้น เราจะรับมือกับความท้าทายที่แท้จริงเหล่านี้ได้อย่างไร? วิธีที่เชื่อถือได้มากกว่า โดยเฉพาะในวงการเทคโนโลยี คือการทดลองหรือการทดสอบแบบ A/B อย่างไรก็ตาม วิธีนี้อาจไม่สามารถทำได้เสมอไป ตอนนี้คุณคงเบื่อกับตัวอย่างที่น่าหดหู่แล้ว ดังนั้นเรามาใช้ตัวอย่างที่สนุกกันดีกว่า บน Roblox ผู้ใช้ของเราแสดงตัวตนและความคิดสร้างสรรค์ผ่านอวตารของพวกเขา โดยการสวมใส่ไอเท็มต่างๆ ที่สามารถหาได้จากร้านค้าอวตาร

ตามที่คุณสามารถจินตนาการได้ การรักษาสุขภาพของฟีเจอร์นี้มีความสำคัญอย่างยิ่งต่อเรา ในการที่จะหาว่าเราลงทุนทรัพยากรในมาร์เก็ตเพลสนี้มากเพียงใด เราต้องการทราบว่ามันมีส่วนช่วยต่อเป้าหมายของบริษัทเราในท้ายที่สุดมากเพียงใด อย่างเฉพาะเจาะจงมากขึ้น เราต้องการประมาณผลกระทบที่ร้านอวาตาร์มีต่อการมีส่วนร่วมของชุมชน อย่างน่าเสียดาย การทดลองโดยตรงไม่สามารถทำได้
- เราไม่สามารถปิดร้านค้าอวตารสำหรับผู้ใช้บางส่วนได้ เพราะมันเป็นส่วนที่สำคัญมากของประสบการณ์การใช้งานบนแพลตฟอร์มของเรา
- Avatar Shop เป็นตลาดที่ผู้ใช้สามารถโต้ตอบกันได้ในรูปแบบของผู้ซื้อและผู้ขาย การปิดใช้งานสำหรับกลุ่มผู้ใช้หนึ่งกลุ่มจะส่งผลกระทบต่อผู้ใช้ที่ไม่ได้ปิดใช้งานด้วยเช่นกัน
ในขณะเดียวกัน การประมาณความสัมพันธ์เชิงสาเหตุนี้โดยใช้ข้อมูลที่ไม่ใช่การทดลองเป็นเส้นทางที่เสี่ยงอันตราย เนื่องจาก (i) เราได้ระบุตัวแปรกวนหลายตัวที่ไม่สามารถปรับได้อย่างชัดเจนหรือไม่สามารถสังเกตได้ และเนื่องจาก (ii) เราพบว่าความเคลื่อนไหวในตัวชี้วัดหลักของเรายังมีผลกระทบย้อนกลับต่อการมีส่วนร่วมกับร้านค้าอีกด้วย

นี่ไม่ใช่ปัญหาที่พบได้ยาก และมีวิธีการทางสถิติหลายวิธีที่อาจเป็นประโยชน์ ตัวอย่างเช่น การประมาณค่าแบบ Differences-in-Differences หรือ Two-Way Fixed Effects (TWFE) จะติดตามกลุ่มผู้ใช้ในช่วงเวลาต่างๆ และดูว่าชั่วโมงการใช้งานของพวกเขาเปลี่ยนแปลงไปอย่างไรหลังจากได้มีส่วนร่วมกับ Avatar Shop อีกเทคนิคหนึ่งที่ได้รับความนิยมคือการจับคู่คะแนนความโน้มเอียง (Propensity Score Matching หรือ PSM) ซึ่งพยายามจับคู่ผู้ใช้ที่ใช้ร้านอวตารกับผู้ใช้ที่ไม่ใช้ร้านอวตารโดยพิจารณาจากปัจจัยต่างๆ วิธีการเหล่านี้มีข้อดีและความท้าทายเฉพาะตัว แต่บ่อยครั้งประสบปัญหาเดียวกันแม้ว่าจะนำไปใช้อย่างถูกต้องแล้วก็ตาม นั่นคือปัจจัยที่ไม่สามารถสังเกตได้ซึ่งอาจส่งผลต่อทั้งการมีส่วนร่วมกับร้านอวตารและชั่วโมงการใช้งาน เช่น ตัวแปรรบกวน (หมายเหตุ: การวิเคราะห์ความแตกต่างของความแตกต่าง (Differences-in-Differences) คาดว่าจะมีความทนทานต่อตัวแปรกวนที่คงที่ แต่ยังคงอ่อนไหวต่อตัวแปรกวนที่เปลี่ยนแปลงตามเวลา)
ตัวแปรเครื่องมือช่วยกู้สถานการณ์

ตัวแปรเครื่องมือสามารถให้ทางออกสำหรับตัวแปรกวนที่สังเกตไม่ได้ซึ่งเทคนิคการอนุมานเชิงสาเหตุอื่นไม่สามารถทำได้ การเน้นอยู่ที่คำว่า "สามารถ" ในที่นี้ เพราะส่วนที่ยากที่สุดคือการค้นหาตัวแปรพิเศษที่ตอบสนองเงื่อนไขหลักสองข้อสำหรับการประมาณค่า IV ที่ถูกต้อง:
- ขั้นตอนแรก: ต้องมีความเชื่อมโยงอย่างแน่นแฟ้นกับตัวแปรที่สนใจ (เช่น การมีส่วนร่วมในร้านค้าอวตาร ในกรณีของเรา)
- การยกเว้น: ความสัมพันธ์เพียงอย่างเดียวของมันกับผลลัพธ์ (ชั่วโมงที่เข้าร่วม) คือผ่านตัวแปรที่สนใจ (การมีส่วนร่วมในร้านค้าอวตาร)
หากเราสามารถระบุเครื่องมือดังกล่าวได้ การประมาณค่าเชิงสาเหตุโดยใช้ข้อมูลที่ไม่ใช่การทดลองของเราจะง่ายขึ้นมาก: ความแปรปรวนใดๆ ในผลลัพธ์ (Y) ที่สัมพันธ์กับความแปรปรวนของตัวแปรที่เราสนใจ (X) ซึ่งอธิบายโดยเครื่องมือ (Z) ถือเป็นผลกระทบเชิงสาเหตุของ X ต่อ Y ดูแผนภาพสำหรับตัวอย่างที่ง่ายขึ้นของแนวคิดพื้นฐานเบื้องหลังตัวแปรเครื่องมือ

แผนภาพด้านบนยังแสดงให้เห็นว่าเงื่อนไขทั้งสองนั้นมีความสำคัญเพียงใด ประการแรก เครื่องมือต้องสามารถทำนายการเคลื่อนไหวจาก X1 ไปยัง X2 ได้อย่างแม่นยำ และประการที่สอง เรากำลังสมมติอย่างเชื่อใจว่าการเคลื่อนไหวจาก Y2 ไปยัง Y1 เกิดขึ้นทั้งหมดเนื่องจากการเคลื่อนไหวจาก X1 ไปยัง X2 หาก Z มีวิธีส่งผลกระทบต่อ Y นอกเหนือจากการผ่าน X เราจะระบุสาเหตุของการเคลื่อนไหวทั้งหมดใน Y ให้กับ X อย่างไม่ถูกต้อง
ตามที่คุณเห็น เงื่อนไขที่สองเป็นจุดที่การประมาณค่าด้วย IV ล้มเหลวบ่อยที่สุด เนื่องจากเป็นการกล่าวอ้างที่ค่อนข้างรุนแรงในระบบที่ซับซ้อน ดังนั้น เครื่องมือในกรณีของเราคืออะไรกันแน่ และทำไมเราจึงมั่นใจว่ามีคุณสมบัติตรงตามเงื่อนไขที่สองนี้?
เครื่องมือของเรา
ประมาณหนึ่งปีที่แล้ว เราได้ทำการทดสอบ A/B เพื่อประเมินฟีเจอร์ใหม่ 'แนะนำสำหรับคุณ' สำหรับร้านค้าอวาตาร์ เราได้สังเกตเห็นผลกระทบอย่างมากต่อการมีส่วนร่วมในร้านค้าอวาตาร์ กล่าวอีกนัยหนึ่ง กลุ่มทดลองที่ผู้ใช้เข้าร่วมสามารถทำนายการมีส่วนร่วมของพวกเขาในร้านค้าอวาตาร์ได้อย่างแม่นยำ (ขั้นตอนแรก) เราได้สังเกตผลกระทบที่เกิดขึ้นในช่วงเวลาที่ผู้เล่นมีส่วนร่วมด้วยเช่นกัน และเนื่องจากทดลองนี้ถูกออกแบบมาเพื่อประเมินการเปลี่ยนแปลงในร้านค้าอวาตาร์โดยเฉพาะ และไม่ได้แตะต้องสิ่งอื่นใดใน Roblox เราจึงมีเหตุผลที่หนักแน่นในการเชื่อว่า การเปลี่ยนแปลงของระยะเวลาที่ผู้เล่นมีส่วนร่วมนั้น เกิดขึ้นจากการเปลี่ยนแปลงในการมีส่วนร่วมกับร้านค้าเท่านั้น (การตัดปัจจัยอื่นออก)

การมีเครื่องมือที่ดีหมายความว่าเราสามารถประมาณความสัมพันธ์เชิงสาเหตุจากการมีส่วนร่วมในร้านค้าอวตารไปยังจำนวนชั่วโมงที่ใช้งานได้ โดยไม่จำเป็นต้องปิดร้านค้าอวตารสำหรับผู้ใช้บางส่วนของเรา เพื่อทำการทดสอบแบบ A/B โดยตรง
ผลการค้นพบ
จากการใช้การประมาณค่า IV ตามที่ได้อธิบายไว้ข้างต้น เราพบความสัมพันธ์เชิงสาเหตุที่มีนัยสำคัญทางสถิติและเป็นบวกระหว่างตัวแปรทั้งสองของเรา โดยเฉพาะอย่างยิ่ง การมีส่วนร่วมในร้านค้าอวตารที่เพิ่มขึ้น 1% ส่งผลให้เวลาในการได้รับประสบการณ์เพิ่มขึ้น 0.08% (SE: 0.008%, ค่า p < 0.000) การเจาะลึกลงไปอีกโดยการวิเคราะห์ข้อมูลเดียวกันกับผู้ใช้ที่แบ่งตามระยะเวลาการใช้งานบน Roblox เราสังเกตเห็นสิ่งที่น่าสนใจ: การประมาณผลกระทบเหล่านี้ไม่ได้เหมือนกันทั้งหมด โดยเฉพาะอย่างยิ่ง เราพบว่า การมีส่วนร่วมในร้านค้า (Shop engagement) มีผลกระทบต่อเวลาการใช้งานของผู้ใช้ใหม่ (สมัครใช้งานน้อยกว่าหนึ่งสัปดาห์) อย่างมาก

นี่เป็นข้อมูลเชิงลึกที่มีประโยชน์มากซึ่งสามารถช่วยเราในการออกแบบประสบการณ์การเริ่มต้นใช้งานสำหรับผู้ใช้ใหม่ของเรา นอกจากนี้ยังเป็นโอกาสที่ดีในการพูดคุยเกี่ยวกับข้อจำกัดที่สำคัญของ IV: พวกมันประมาณค่าผลกระทบเฉลี่ยของการรักษาในท้องถิ่น (Local Average Treatment Effects - LATE) แทนที่จะเป็นผลกระทบเฉลี่ยของการรักษา (Average Treatment Effects - ATE) เหมือนกับการทดลองโดยตรง นั่นคือ การประมาณค่าเหล่านี้เฉพาะเจาะจงกับผู้ใช้ที่พฤติกรรมได้รับผลกระทบจากเครื่องมือของเรา และดังนั้นอาจไม่สามารถนำไปใช้ทั่วไปกับประชากรทั้งหมดได้ และข้อแตกต่างนี้มีความสำคัญเมื่อใดก็ตามที่เราคิดว่าผลกระทบของการรักษาไม่สม่ำเสมอเหมือนที่เราเห็นข้างต้น ในทางปฏิบัติ การสมมติว่าผลกระทบของการรักษาไม่สม่ำเสมอเป็นสิ่งที่ปลอดภัยเสมอ และดังนั้นการประมาณค่าของตัวแปรแฝง (IV estimates) แม้ว่าจะมีความถูกต้องภายในก็ตาม ก็ไม่ใช่ตัวแทนที่สมบูรณ์แบบสำหรับการทดลอง แต่บางครั้งอาจเป็นสิ่งเดียวที่เราสามารถทำได้
ขั้นตอนต่อไป
วิธีแก้ปัญหากลุ่มตัวอย่างล่าช้า (LATE) ของ IV ที่แท้จริงคือการหาเครื่องมือวัดเพิ่มเติมและประมาณค่า LATE หลายค่า และเป้าหมายคือการสร้างค่าประมาณผลกระทบจากการรักษาเฉลี่ยทั่วโลกโดยการรวมค่าประมาณผลกระทบในท้องถิ่นหลายค่าเข้าด้วยกัน นั่นคือสิ่งที่เราวางแผนจะทำต่อไป และเราสามารถทำได้เพราะเราทำการทดลองที่หลากหลายในด้านต่างๆ ของร้านค้าอวตาร แต่ละอย่างควรทำหน้าที่เป็นเครื่องมือที่มีประสิทธิภาพสำหรับวัตถุประสงค์ของเรา ดังที่คุณอาจจินตนาการได้ มีปัญหาการวิเคราะห์ที่น่าสนใจและท้าทายมากมายที่ต้องแก้ไข และหากคุณชื่นชอบงานประเภทนี้ เราอยากเชิญคุณมาร่วมทีมวิทยาศาสตร์ข้อมูลและการวิเคราะห์ของ Roblox
ข้อคิดสุดท้ายเกี่ยวกับตัวแปรเครื่องมือ
เราหวังว่าจดหมายรักฉบับนี้และการแนะนำตัวเกี่ยวกับตัวแปรเครื่องมือจะแสดงถึงพลังของมันและจุดประกายความสนใจของคุณต่อไป แม้ว่าวิธีการประมาณค่าเชิงสาเหตุนี้อาจถูกใช้มากเกินไปในบางบริบท แต่เราคิดว่ามันถูกใช้อย่างไม่เพียงพอในวงการเทคโนโลยี ซึ่งสมมติฐานของมันมีแนวโน้มที่จะเป็นจริงมากกว่า โดยเฉพาะอย่างยิ่งเมื่อตัวแปรเครื่องมือมาจากผลการทดลอง ข่าวดีเพิ่มเติมคือ เนื่องจากมีมาตั้งแต่ทศวรรษ 1920! จึงมีวรรณกรรมมากมายที่มีการอภิปรายอย่างกระตือรือร้นเกี่ยวกับการนำไปใช้และการตีความอย่างถูกต้อง
อุจวัล คารเอล เป็นนักวิทยาศาสตร์ข้อมูลอาวุโสที่ Roblox เขาทำงานในแผนก Avatar Shop เพื่อให้เศรษฐกิจของมันแข็งแรงและเจริญเติบโต
ทั้งบริษัท Roblox Corporation และบล็อกนี้ไม่ได้รับรองหรือสนับสนุนบริษัทหรือบริการใด ๆ ทั้งสิ้น นอกจากนี้ ไม่มีการรับประกันหรือคำมั่นสัญญาใด ๆ เกี่ยวกับความถูกต้อง ความน่าเชื่อถือ หรือความสมบูรณ์ของข้อมูลที่ปรากฏในบล็อกนี้
©2021 บริษัท Roblox Corporation. Roblox, โลโก้ Roblox และ Powering Imagination เป็นเครื่องหมายการค้าจดทะเบียนและไม่ได้จดทะเบียนของเราในสหรัฐอเมริกาและประเทศอื่น ๆ


