paint-brush
प्रोपेन्सिटी स्कोर मिलान कसरी लागू गर्ने: एक चरण-दर-चरण गाइडद्वारा@ngl21
336 पढाइहरू
336 पढाइहरू

प्रोपेन्सिटी स्कोर मिलान कसरी लागू गर्ने: एक चरण-दर-चरण गाइड

द्वारा Angela Nedopekina9m2024/11/04
Read on Terminal Reader

धेरै लामो; पढ्नकाे लागि

प्रोपेन्सिटी स्कोर मिलान एक अतिरिक्त A/B परीक्षण प्रविधि हो जब नमूना अनियमितताले काम गर्दैन। प्रत्येक प्रयोगकर्ताको लागि उपचार समूहको प्रपेन्सिटी स्कोर (परीक्षण समूहमा तोकिएको सम्भावना) गणना गरिन्छ र त्यसपछि प्रयोगकर्तालाई नियन्त्रण समूहको रूपमा उत्पादन प्रयोगको ऐतिहासिक डेटाको आधारमा अर्को प्रयोगकर्तासँग मिलाइन्छ। पछि, सांख्यिकीय परीक्षण प्रयोग गरेर दुई समूहहरूको नतिजा तुलना गरिन्छ र एक प्रयोग प्रभाव मापन गरिन्छ। तल PSM को एक रूपरेखा हो: 1) डेटा सङ्कलन गर्नुहोस् जसमा एक प्रवृत्ति स्कोर अनुमान गरिएको छ र एक मिल्दो प्रयोगकर्ता फेला पर्यो। 2) विधिहरू प्रयोग गरेर प्रवृति स्कोर अनुमान गर्नुहोस्, जस्तै लजिस्टिक रिग्रेसन, र डेटासेटमा प्रशिक्षित गर्नुहोस् कि प्रयोगकर्तालाई परीक्षण समूहमा नियुक्त गरिनेछ कि छैन। प्रत्येक प्रयोगकर्ताको लागि, प्रशिक्षित मोडेलले परीक्षण समूहमा हुने सम्भावना उत्पन्न गर्छ। 3) प्रवृति स्कोरमा आधारित मिलान, जहाँ नजिकको छिमेकी जस्ता विभिन्न मिल्दो विधिहरू प्रयास गरिन्छ।  4) उपचार र नियन्त्रण समूहहरू बीच covariates को सन्तुलन ब्यालेन्स तथ्याङ्क गणना र प्लटहरू उत्पन्न गरेर जाँच गरिन्छ। कमजोर सन्तुलनले संकेत गर्छ कि मोडेल अनुमानित प्रवृत्ति स्कोर पुन: निर्दिष्ट गर्न आवश्यक छ। 5) एक परीक्षणको प्रभावहरू मिलान गरिएको डाटा प्रयोग गरेर अनुमानित गरिन्छ र एक सांख्यिकीय परीक्षण सञ्चालन गरिन्छ। PSM लागू गर्न केही सीमितताहरू छन्।
featured image - प्रोपेन्सिटी स्कोर मिलान कसरी लागू गर्ने: एक चरण-दर-चरण गाइड
Angela Nedopekina HackerNoon profile picture
0-item


भर्खरै मैले प्रोपेन्सिटी स्कोर मिलानमा आधारित एक प्रयोगमा काम गरिरहेको थिएँ र जानकारी अनुसन्धान गर्दा मैले यस विषयमा सामग्रीको अभावको सामना गरें। मैले फेला पारेका अधिकांश लेखहरू विधिको प्रभावकारितामा छन् र तिनीहरू सिद्धान्तको सन्दर्भमा राम्रोसँग विस्तृत छैनन्। तसर्थ, मैले तपाइँसँग प्रोपेन्सिटी स्कोर मिलान फ्रेमवर्क र यसका चरणहरूमा विस्तृत दिशानिर्देश साझा गर्ने निर्णय गरेको छु।

Propensity Score Matching भनेको के हो र यसलाई किन लागू गर्ने?

"प्रोपेन्सिटी स्कोर मिल्दो प्रवृति स्कोरको समान मूल्य साझा गर्ने उपचार गरिएका र उपचार नगरिएका विषयहरूको मिल्दो सेटहरू बनाउन समावेश गर्दछ। एक पटक मिल्दो नमूना गठन भएपछि, उपचार प्रभाव सीधा परिणाम तुलना गरेर अनुमान गर्न सकिन्छ।


परिभाषा पहिलो पटक रोसेनबम पीआर, रुबिन डीबी द्वारा 1983 को लेख "बाइनरी नतिजाको साथ एक अवलोकन अध्ययनमा एक अब्जर्भेटेड बाइनरी कोभेरिएट को संवेदनशीलता को आकलन" मा दिइएको थियो।


यसलाई सरल भाषामा भन्नुपर्दा, यो एक अतिरिक्त A/B परीक्षण प्रविधि हो जब नमूना अनियमितताले काम गर्दैन । प्रत्येक प्रयोगकर्ताको लागि उपचार समूहको प्रपेन्सिटी स्कोर (परीक्षण समूहमा तोकिएको सम्भावना) गणना गरिन्छ र त्यसपछि प्रयोगकर्तालाई नियन्त्रण समूहको रूपमा उत्पादन प्रयोगको ऐतिहासिक डेटाको आधारमा अर्को प्रयोगकर्तासँग मिलाइन्छ। पछि, सांख्यिकीय परीक्षण प्रयोग गरेर दुई समूहहरूको नतिजा तुलना गरिन्छ र एक प्रयोग प्रभाव मापन गरिन्छ।


चित्र 1. प्रोपेन्सिटी स्कोर मिल्दो चित्रण


तर A/B प्लेटफर्मले यसको सट्टामा गर्न सक्छ भने नियन्त्रण समूह खोज्ने जटिल प्रविधि किन प्रयोग गर्ने? कतिपय अवस्थामा बिल्ट-इन स्प्लिटिंग प्रकार्यको साथ A/B प्लेटफर्म प्रयोग गर्न सम्भव छैन। यहाँ सम्भावित केसहरू छन्:


  1. विभिन्न क्रस फंक्शनल कार्य र सञ्चारको कारणले A/B परीक्षण लागू गर्न व्यवसायको लागि यो महँगो र समय-उपभोग छ (हो, यो हुन सक्छ)।
  2. क्लासिक परीक्षण/नियन्त्रण प्रयोग लागू गर्ने अवस्थामा कम्पनीले मुद्रीकरण वा मार्केटिङ-सम्बन्धित कार्यहरू/रणनीतिहरू परीक्षण गर्दा नाफाको कमी हुन सक्छ।
  3. A/B परीक्षणको लागि आवश्यक पर्ने अफलाइन प्रयोगहरूमा अनियमित नमूना प्राप्त गर्न प्रायः असम्भव हुन्छ।
  4. परीक्षण गरिएको वस्तु अनियमित रूपमा वितरण नभएको बेला अनलाइन प्रयोगहरूमा A/B परीक्षण लागू गर्न पनि यो कार्ययोग्य छैन।


मसँग मेरो अभ्यासमा चौथो केस थियो र यो ई-वाणिज्य उत्पादनसँग काम गर्दा भयो। एउटा उत्पादन टोलीले पहिलो अर्डर गरेपछि प्रयोगकर्ताहरूलाई बोनस दिने कार्य परीक्षण गर्ने तयारी गरिरहेको थियो। समस्या यो थियो कि प्रकार्यले पहिलो अर्डर राख्ने सबै प्रयोगकर्ताहरूमा काम गरिरहेको थिएन। केही शर्तहरू, जस्तै अर्डरको मूल्य, इत्यादि, भेट्नुपर्ने थियो। यस अवस्थामा, यो परीक्षण र नियन्त्रण समूहहरू बीच ट्राफिक विभाजित गर्न A/B परीक्षण प्लेटफर्मको सीमाभन्दा बाहिर छ। यहाँ किन प्रोपेन्सिटी स्कोर मिलान विकल्प थियो।

प्रोपेन्सिटी स्कोर मिलानको फ्रेमवर्क

एक c पूर्ण ढाँचा लगभग एउटा लेखमा आधारित छ " R सँग मेल खाने प्रवृत्ति स्कोर: परम्परागत विधिहरू र नयाँ सुविधाहरू " र पाँच चरणहरू समावेश गर्दछ (चित्र 2)।


पहिलो चरण डेटा सङ्कलन गर्न हो जसमा एक प्रवृत्ति स्कोर अनुमान गरिएको छ र एक मिल्दो प्रयोगकर्ता फेला पर्यो।


दोस्रो चरण भनेको विधिहरू प्रयोग गरेर प्रवृति स्कोर अनुमान गर्नु हो, जस्तै लजिस्टिक रिग्रेसन, र डेटासेटमा प्रशिक्षित गर्नको लागि प्रयोगकर्तालाई परीक्षण समूहमा तोक्ने छ कि छैन भनेर भविष्यवाणी गर्न। प्रत्येक प्रयोगकर्ताको लागि, प्रशिक्षित मोडेलले परीक्षण समूहमा हुने सम्भावना उत्पन्न गर्छ।


तेस्रो चरणले प्रवृति स्कोरमा आधारित मिलानलाई जनाउँछ, जहाँ विभिन्न मिल्दो विधिहरू प्रयास गरिन्छ, जस्तै नजिकको छिमेकी।


चौथो चरणमा, उपचार र नियन्त्रण समूहहरू बीचको कोभेरिएट्सको सन्तुलन सन्तुलन तथ्याङ्कहरू गणना गरेर र प्लटहरू उत्पन्न गरेर जाँच गरिन्छ। कमजोर सन्तुलनले मोडेल अनुमान गर्ने प्रवृत्ति स्कोर पुन: निर्दिष्ट गर्न आवश्यक छ भनेर संकेत गर्दछ।


पाँचौं अन्तिम चरणमा, मिलान गरिएको डाटा प्रयोग गरेर परीक्षणको प्रभावहरू अनुमान गरिन्छ र सांख्यिकीय परीक्षण सञ्चालन गरिन्छ।


चित्र 2. प्रोपेन्सिटी स्कोर मिलान फ्रेमवर्क

डाटा सङ्कलन

यो चरण आवश्यक चर, covariates र confounders सङ्कलन सम्बन्धमा छ। Covariate (X) एक स्वतन्त्र चर हो जसले प्रयोग (Y) को नतिजालाई प्रभाव पार्न सक्छ, तर जुन प्रत्यक्ष चासोको होइन। कन्फाउन्डर एक अध्ययन गरिएको एक बाहेक अन्य कारक हो जुन परीक्षण समूह (W) मा आवंटन र प्रयोग (Y) को नतिजा संग सम्बन्धित छ।


तलको ग्राफले चरको सम्बन्धलाई चित्रण गर्दछ। X एक covariate हो, W उपचार असाइनमेन्टको सूचक हो, र Y परिणाम हो। बायाँको ग्राफले कन्फउन्डरको सम्बन्धलाई चित्रण गर्दछ र दायाँमा रहेको एउटाले प्रयोगको नतिजा (Y) र समूह आवंटन (W) परीक्षण गर्न कोभेरिएटको स्वतन्त्र जडान देखाउँछ।


चित्र 3. कोवरिएट, परीक्षण असाइनमेन्ट र नतिजाको सम्बन्ध। 


यहाँ यो अधोरेखित गर्न महत्त्वपूर्ण छ कि परीक्षण समूह (W) मा प्रयोगकर्ताहरूको असाइनमेन्टसँग सम्बन्धित चरहरू मात्र चयन गर्न सिफारिस गरिएको छैन किनभने यसले पूर्वाग्रह घटाइ बिना समूह भिन्नताको मूल्याङ्कनमा शुद्धता कम गर्न सक्छ ( https://www.ncbi .nlm.nih.gov/pmc/articles/PMC1513192/ )।


तपाईंले मलाई कति चरहरू चयन गर्न आवश्यक छ भनेर सोध्न सक्नुहुन्छ? जवाफ सरल छ - नतिजाहरूको उच्च अनुमान प्राप्त गर्न र अध्ययन पूर्वाग्रह कम गर्नको लागि जति धेरै, राम्रो । र यहाँ म 20-50 वा अझ बढीको रूपमा ठूलो संख्याको बारेमा कुरा गर्दैछु।

प्रवृति स्कोर अनुमान

अर्को चरणमा सर्दै, यो डेटा सङ्कलन गर्न र उपचार समूहसँग सम्बन्धित झण्डा सेट गर्न आवश्यक छ। अन्य सबै प्रयोगकर्ताहरूले सम्भावित रूपमा नियन्त्रण समूह बनाउनेछन्। पछि प्रवृति स्कोर विभिन्न विधिहरू प्रयोग गरी अनुमान गरिएको छ, जस्तै लजिस्टिक रिग्रेसन वा अनियमित वन।


मैले पढेका धेरै जसो लेखहरूले लजिस्टिक रिग्रेसनमा टाँसिने र उच्च शुद्धताको रूपमा अन्य जटिल मोडेलहरू प्रयोग नगर्ने सुझाव दिन्छ । यद्यपि, सफल मिलान प्रविधि शुद्धतामा केन्द्रित हुन्छ।


विधि चयन गरेपछि, प्रयोगकर्ता परीक्षण समूहको हो कि होइन भनेर भविष्यवाणी गर्न चयन गरिएको कोभेरिएट्स प्रयोग गरेर डेटामा भविष्यवाणी गर्ने मोडेललाई तालिम दिइन्छ। अन्तमा, मोडेलले प्रत्येक प्रयोगकर्ताको लागि भविष्यवाणी गर्दछ, र प्रवृत्ति स्कोर, परीक्षण समूहमा हुने सम्भावना, गणना गरिन्छ। सफ्टवेयरको सन्दर्भमा, पाइथनमा तपाईंले आधारभूत स्किट-लर्नबाट सुरु हुने र प्रोफेटमा सर्ने कुनै पनि पूर्वानुमान पुस्तकालय प्रयोग गर्न सक्नुहुन्छ।

डाटा मिलान

निम्न कार्य भनेको परीक्षण समूहबाट प्रयोगकर्तामा मेल खाएको प्रयोगकर्ता फेला पार्न मिल्दो प्रविधि लागू गर्नु हो। त्यसैले, एक नियन्त्रण समूह गठन गरिएको छ।


त्यहाँ छनौट गर्न विभिन्न मिल्दो विधिहरू छन्, उदाहरणका लागि सटीक मिलान वा Mahalanobis दूरी मिलान। यस लेखमा म मुख्यतया निकटतम छिमेकी मिल्दोजुल्दो र यसको भिन्नताहरूको साझा प्रविधिको बारेमा छलफल गर्न जाँदैछु।


निकटतम छिमेकी मिलान (NNM) दुई चरणहरू मिलेर बनेको छ। पहिले, एल्गोरिथ्मले प्रयोगकर्ताहरूलाई, एक उपचार समूहबाट, एक निर्दिष्ट क्रममा छान्छ। पछि, परीक्षण समूहको प्रत्येक प्रयोगकर्ताको लागि, एल्गोरिथ्मले निकटतम प्रवृत्ति स्कोरको साथ नियन्त्रण समूहमा प्रयोगकर्ता फेला पार्छ। यी चरणहरू दोहोर्याइन्छ जबसम्म कुनै प्रयोगकर्ताहरू परीक्षण वा नियन्त्रण समूहहरूमा नछोडिन्छन्। Python मा, PSM का लागि PyTorch, Psmpy , causallib को रूपमा विशिष्ट पुस्तकालयहरू छन्। वा तपाईं सँधै मिल्दो एल्गोरिदमको साथ कुनै पनि क्लासिक पुस्तकालयमा टाँस्न सक्नुहुन्छ।


क्लासिक A/B परीक्षण जस्तै नियन्त्रण समूह सिर्जना गर्दा, जहाँ समूहका प्रयोगकर्ताहरू अद्वितीय छन् र नमूना आकारहरू बराबर छन्, प्रतिस्थापन विधि बिना नै NNM लागू गरिनुपर्छ भन्ने कुरालाई रेखांकित गर्न महत्त्वपूर्ण छ। यो विधिले मिल्दोजुल्दो जोडीलाई हटाइने छ, जसले गर्दा कन्ट्रोल समूहमा प्रयोगकर्तालाई एक पटक मात्र प्रयोग गरिनेछ।


क्यालिपरको साथ वा बिना NNM मोडेल चयन गर्ने विकल्प पनि छ। एक क्यालिपरले मेल खाएको जोडीमा प्रवृति स्कोरको दूरीको माथिल्लो सीमा सेट गर्दछ। यसरी, प्रत्येक प्रयोगकर्तालाई सीमित दायरा भित्रको प्रवृति स्कोरका प्रयोगकर्ताहरूसँग मात्र मिलाउन सकिन्छ। यदि योग्य प्रयोगकर्ताहरू मिलाउन सकिँदैन भने, प्रयोगकर्ता खारेज गरिनेछ।


मैले किन क्यालिपर प्रयोग गर्नुपर्छ? मिल्दो जोडीमा प्रवृति स्कोरको दूरी ठूलो हुन सक्छ भने यसलाई लागू गर्न सल्लाह दिइन्छ। क्यालिपर साइजमा निर्णय गर्दा, निम्नलाई विचार गर्नुहोस्: यदि मिल्दो कार्यसम्पादन सन्तोषजनक छैन भने, मिल्दो क्यालिपरसँग मिलाउन सकिन्छ र यदि मिल्दो सफल भए तर मिल्दो जोडीहरूको संख्या सानो छ भने, क्यालिपर फराकिलो गर्न सकिन्छ ( https:/ /www.ncbi.nlm.nih.gov/pmc/articles/PMC8246231/ )।

ब्यालेन्स डायग्नोस्टिक्स

यस चरणको समयमा यो जाँच गरिएको छ कि परीक्षण र मिल्दो नियन्त्रण समूहहरू सन्तुलित छन् कि छैनन्, यसैले, यो दावी गर्छ कि मिलान सही छ कि छैन।

यो एक महत्त्वपूर्ण कदम हो किनकि असन्तुलित कोभेरिएट्सले गलत A/B परीक्षण नतिजाहरूको तुलनामा नेतृत्व गर्नेछ।

सन्तुलन निदानका तीनवटा माध्यमहरू छन्:


- वर्णनात्मक तथ्याङ्क: मानकीकृत औसत भिन्नता (SMD) वा भिन्नता अनुपात (VR)

- सांख्यिकीय परीक्षण

- दृश्य: qq-प्लट, हिस्टोग्राम वा प्रेम कथानक


लेखमा म मुख्यतया पहिलो र तेस्रो विकल्पहरूमा ध्यान केन्द्रित गर्दछु।


पहिले, मानकीकृत औसत भिन्नता र भिन्नता अनुपातमा छलफल गरौं। कुन मानहरूले कोभेरिएट सन्तुलित छ भनेर संकेत गर्छ? म सुझाव दिन्छु कि SMD मान ०.१ भन्दा कम छ VR को सन्दर्भमा, 1.0 नजिकको मानले ब्यालेन्सलाई जनाउँछ


दोस्रो स्थानमा, भिजुअलाइजेशन विधिहरूको सन्दर्भमा, माथिको वर्णनात्मक तथ्याङ्कहरू मध्ये एक प्रत्येक कोभिएरको लागि गणना गरिन्छ र ग्राफिक रूपमा प्रदर्शित हुन्छ। म व्यक्तिगत रूपमा एक प्रेम प्लट रुचाउँछु किनकि सबै covariates एक ग्राफ मा राख्न सकिन्छ र covariates पहिले र मिल्दो सजिलै संग तुलना गर्न सकिन्छ। म तल ग्राफको उदाहरण राख्छु।


चित्र 4. कोभेरिएट्स SMD को प्रेम प्लट समायोजन अघि र पछि


के हुन्छ यदि covariates मिलान पछि पनि असन्तुलित छन्? उदाहरणका लागि, खरीद र AOV को कोभेरिएट्स फ्रिक्वेन्सीको मानकीकृत औसत भिन्नता (SMD) लगभग ०.५ छ, जुन आवश्यक ०.१ भन्दा माथि छ। यसले कोभेरिएट्स असन्तुलित छन् र पुन: मिलान आवश्यक छ भनेर संकेत गर्दछ।

असन्तुलित covariates संकेत PSM मोडेल प्रभावकारी छैन र पुनर्निर्माण गर्न आवश्यक छ। त्यसकारण, यो केहि कदम पछाडि जानु र मिल्दो दोहोर्याउन आवश्यक छ।

मिल्दो पुन: गर्न चार तरिकाहरू छन्:


1. नयाँ covariates थप्नुहोस्

2. बस मिल्ने विधि परिवर्तन गर्नुहोस् किनकि त्यहाँ धेरै छन्

3. सही मिलान विधि संग प्रवृति स्कोर मिलान संयोजन

4. नमूना आकार बढाउनुहोस्

उपचार प्रभावहरूको अनुमान

अन्तमा, हामी अन्तिम चरणमा पुग्दैछौं जब प्रयोग प्रभाव अनुमान गरिएको छ। त्यहाँ मुख्यतया तीन प्रकारका प्रभाव अनुमानहरू छन्: औसत उपचार प्रभाव (ATE), उपचारमा औसत उपचार प्रभाव (ATT), र नियन्त्रणमा औसत उपचार प्रभाव (ATC)। सामान्यतया, ATE परीक्षण र नियन्त्रण समूहहरू बीचको मुख्य मेट्रिकमा गणना गरिएको भिन्नता हो (ए/बी परीक्षणमा मुख्य मेट्रिक नाप्ने समान)। यसलाई उपचार प्रभावको माध्यमको रूपमा गणना गरिएको छ, ATE = avg (Y1 - Y1) तल चित्रमा देखाइएको छ।


चित्र 5. उपचार प्रभावहरूको सूत्र र गणना उदाहरणहरू 


जबकि ATT र ATC क्रमशः परीक्षण र नियन्त्रण समूहको औसत उपचार प्रभाव हो। सबै सीधा र बुझ्ने अनुमान विधिहरू छन्।


ATE सबैभन्दा सामान्य प्रकार हो र प्रयोग गरिन्छ जब नियन्त्रण र परीक्षण समूहहरूको प्रमुख मेट्रिक तुलना गरिन्छ र परीक्षण प्रभाव मापन गरिन्छ। प्रत्येक समूहको लागि निरपेक्ष मेट्रिक्स आवश्यक हुँदा ATT र ATC लाई प्राथमिकता दिइन्छ। अन्ततः, नतिजाको सांख्यिकीय महत्व जाँच गर्न उपयुक्त सांख्यिकीय परीक्षण गरिन्छ।

प्रोपेन्सिटी स्कोर मिलानको सीमाहरू

प्रोपेन्सिटी स्कोर मिलान विधिको विस्तृत व्याख्या पछि, यो तपाइँको काममा लागू गर्न सुरु गर्ने समय हुन सक्छ, तर त्यहाँ केहि सीमितताहरू विचार गर्नुपर्छ।


1. बुटस्ट्र्यापलाई प्रोपेन्सिटी स्कोर म्याचिङसँग प्रयोग गर्न सिफारिस गरिँदैन किनभने यसले भिन्नता बढाउँछ। ( https://economics.mit.edu/sites/default/files/publications/ ON The Failure of The Bootstrap for.pdf )

 2. Stable unit treatment value assumption (SUTVA) principle must be met. 3. Propensity Score Matching implies using two machine learning algorithms (one for propensity score calculations and the second one for matching), which can be a pricy method to use for a company. On that account, it's advisable to negotiate with your team on A/B test conduction. 4. Finally, as discussed above, a big number of covariates are suggested to be used in the models. Thus, it requires a high-powered machine(-s) to calculate the results of the models. Again, it's a costly method to implement.

यद्यपि, यदि प्रोपेन्सिटी स्कोर मिलान लागू गर्न सम्भव छ भने, यो गर्नुहोस् र आफ्नो अनुभव र व्यावहारिक ज्ञान बढाउन नहिचकिचाउनुहोस्। तपाईंको भविष्यका प्रयोगहरू र मेसिन लर्निङ आविष्कारहरूको लागि शुभकामना



के तपाइँ यी केहि प्रश्नहरूको जवाफ दिँदै छुरा लिन चाहनुहुन्छ? टेम्प्लेटको लागि लिङ्क हो यहाँ । हाम्रा सबै लेखन प्रम्प्टहरूबाट सामग्री पढ्न इच्छुक हुनुहुन्छ? क्लिक गर्नुहोस् यहाँ