A/B टेस्ट और एक्सपेरिमेंट अनालिसिस

अंदाजे से नहीं, डेटा से सोचो - जानो कौन सा प्लान बेहतर है

A/B टेस्टिंग के पिट, जिन्होंने पार किया वो जानते हैं

एक्सपेरिमेंट डिज़ाइन नहीं आता, नतीजे नहीं समझ आते, सैंपल साइज़ का हिसाब नहीं लगता

A/B टेस्ट करना चाहते हो, पहले स्टेप ही फंस जाते हो: सैंपल साइज़ कितना चाहिए? कितने दिन चलाएं? फ्लो का रेश्यो क्या रखें?

मुश्किल से टेस्ट खत्म हुआ, नतीजे की ओर देखते हो तो सिर्फ नंबर्स दिखाई देते हैं: p वैल्यू 0.08 क्या यह सिग्निफिकेंट है? कॉन्फिडेंस इंटरवल ज़ीरो पार कर गया तो क्या मतलब? 1.5% का सुधार लाइव करने लायक है?

आखिर में सिर्फ अंदाज़ा लगाकर लाइव कर दिया, फिर ऑनलाइन परफॉर्मेंस टेस्ट से अलग है। पीछे पलटकर देखते हो तो पता चलता है कि टेस्ट के दौरान बिक्री का सीज़न था, डेटा दूषित हो गया था और पता भी नहीं चला। पूरा काम बेकार।

OpenClaw: एक्सपेरिमेंट डिज़ाइन से लेकर नतीजों की व्याख्या तक, पूरे रास्ते साथ रहेगा

स्टेटिस्टिक्स की किताब न पढ़ो। अपनी जरूरत OpenClaw को बता दो, वह सैंपल साइज़ कैलकुलेट कर देगा, फ्लो स्ट्रेटेजी बना देगा, एनालिसिस कोड लिख देगा।

डेटा तैयार हो गया? नतीजे पेस्ट कर दो, वह खुद से स्टेटिस्टिकल टेस्ट करेगा, कॉन्फिडेंस इंटरवल कैलकुलेट करेगा, सिग्निफिकेंस जांचेगा — और सब कुछ सिंपल भाषा में बता देगा, स्टेटिस्टिकल टर्म्स पर अटकना नहीं पड़ेगा। और सब से बड़ी बात, एनालिसिस कोड लोकली चलेगी, आपके बिजनेस डेटा कहीं भेजने की जरूरत नहीं।

3 A/B टेस्टिंग Prompts, कॉपी करके सीधे यूज़ करो

एक्सपेरिमेंट डिज़ाइन से लेकर डेटा एनालिसिस से लेकर नतीजों की व्याख्या तक, जरूरत के अनुसार ले लो।

A/B टेस्ट प्लान बनाओ + सैंपल साइज़ कैलकुलेट करो गोल्डन कमांड

मुझे लैंडिंग पेज के लिए A/B टेस्ट करना है, इन सब काम्स को कर दो:

बैकग्राउंड इनफॉर्मेशन:
- वर्तमान लैंडिंग पेज का कन्वर्जन रेट लगभग 3.2%
- अपेक्षित न्यूनतम सुधार: रिलेटिव सुधार 10% (यानी 3.2% से 3.52% तक)
- दैनिक औसत विजिटर्स लगभग 5000
- सिग्निफिकेंस लेवल α = 0.05, स्टेटिस्टिकल पॉवर 1-β = 0.8

कृपया:
1. हर ग्रुप को न्यूनतम कितने सैंपल साइज़ की जरूरत है कैलकुलेट करो
2. दैनिक ट्रैफिक के आधार पर टेस्ट कितने दिन चलाना चाहिए एस्टीमेट करो
3. फ्लो स्ट्रेटेजी दे दो (50/50 या कोई और रेश्यो बेहतर है)
4. टेस्ट के दौरान पर ध्यान रखने वाली बातें निकाल दो (छुट्टियां, सेल्स आदि जो डेटा को गड़बड़ा सकें)
5. एक पूरा एक्सपेरिमेंट डिज़ाइन डॉक्यूमेंट बना दो

सैंपल साइज़ कैलकुलेशन A/B टेस्टिंग का सबसे महत्वपूर्ण स्टेप है। कम कैलकुलेट करो तो नतीजा विश्वसनीय नहीं रहेगा, ज्यादा तो समय और ट्रैफिक बर्बाद होगा। AI से कैलकुलेट करवा लो, और वह उन पिट्स को भी रेमाइंड करेगा जो अक्सर लोग भूल जाते हैं, जैसे मल्टीपल कम्पेरिजन कॉरेक्शन, नॉवेल्टी इफेक्ट वगैरह। Opus मॉडल को रेकमेंड करता हूं, स्टेटिस्टिकल रीजनिंग बेहतर है।

A/B टेस्ट डेटा को एनालाइज़ करो, स्टेटिस्टिकल निष्कर्ष दे दो गोल्डन इंस्ट्रक्शन

मेरा A/B टेस्ट रन हो गया है, डेटा ~/data/ab_test_results.csv में है, फॉर्मेट कुछ ऐसा है:
- user_id: यूजर आईडी
- group: A या B (A कंट्रोल ग्रुप है, B एक्सपेरिमेंट ग्रुप है)
- converted: 0 या 1 (कन्वर्ट हुआ या नहीं)
- revenue: कितना पैसा आया (0 मतलब कोई भी नहीं)
- timestamp: जब यूजर एक्सपेरिमेंट में आया

मुझे मदद दो:
1. दोनों ग्रुप का कन्वर्जन रेट और प्रति-यूजर कमाई निकालो
2. चाय-स्क्वेयर टेस्ट (कन्वर्जन के लिए) और t-टेस्ट (कमाई के लिए) करो, p वैल्यू और कॉन्फिडेंस इंटरवल दे
3. देखो कि सैंपल साइज बराबर है या नहीं, कोई डेटा क्वालिटी की समस्या है?
4. दोनों ग्रुप का कन्वर्जन और कमाई का ग्राफ बना
5. आम बोल में बता: B प्लान को लाइव करना चाहिए या नहीं?

यह Prompt A/B टेस्ट अनालिसिस के पूरे फ्लो को कवर करता है। खास बात अंतिम स्टेप की - AI को आम भाषा में नतीजा बताने के लिए कहना। स्टैटिस्टिक्स कितना भी अच्छा हो, अगर बॉस नहीं समझे तो कोई मतलब नहीं।

A/B टेस्ट के नतीजों को आम भाषा में समझो शुरुआत के लिए आसान

इस A/B टेस्ट के नतीजों को मेरे लिए आम भाषा में बता दो, मुझे बॉस को रिपोर्ट करनी है:

- कंट्रोल ग्रुप A: 10000 लोग, 320 कन्वर्ट हुए, कन्वर्जन रेट 3.20%
- एक्सपेरिमेंट ग्रुप B: 10000 लोग, 345 कन्वर्ट हुए, कन्वर्जन रेट 3.45%
- p वैल्यू = 0.03
- रिलेटिव बढ़ोतरी = 7.8%
- 95% कॉन्फिडेंस इंटरवल: [0.8%, 14.9%]

सवाल:
1. क्या यह नतीजा स्टैटिस्टिक्ली अर्थपूर्ण है? इसका मतलब क्या है?
2. 7.8% की बढ़ोतरी बिज़नेस के लिए फायदेमंद है?
3. कॉन्फिडेंस इंटरवल इतना चौड़ा क्यों है? इसका क्या मतलब है?
4. सब कुछ देखते हुए, मुझे B प्लान लॉन्च करना चाहिए या नहीं? क्यों?

बहुत सारे लोगों का अनालिसिस तो हो जाता है, पर रिपोर्ट करने में अटक जाते हैं। p वैल्यू, कॉन्फिडेंस इंटरवल - ये सब तुम्हें समझ आता है पर बॉस को भी समझाना होता है। यह Prompt उसी के लिए है।

A/B टेस्ट अनालिसिस: OpenClaw बनाम पुरानी तरीकें

टूल अलग, तो पावर भी अलग होती है।

OpenClaw

एक्सपेरिमेंट डिजाइन से लेकर डेटा अनालिसिस तक सब कुछ कवर किया हुआ है
आम भाषा में कहो क्या चाहिए, स्टैटिस्टिक्स सॉफ्टवेयर सीखने की जरूरत नहीं
अनालिसिस लोकल में चलता है, बिज़नेस डेटा बाहर नहीं जाता
लचीलापन ज्यादा: बेयेशियन अनालिसिस, लेयर्ड अनालिसिस, लंबे मेयाद के असर - सब कुछ कर सकते हो
सिर्फ नंबर नहीं, बिज़नेस सलाह और वार्निंग भी

Google Optimize / हाथ से Excel करना

Google Optimize बंद हो गया (सितंबर 2023), एल्टरनेटिव के लिए पैसे देने होंगे
Excel में स्टैटिस्टिकल टेस्ट करना बहुत झंझट है, फॉर्मूले गलत भी हो सकते हैं
पुराने टूल सिर्फ नंबर देते हैं, बिज़नेस समझाते नहीं
एडवांस अनालिसिस (बेयेशियन, CUPED वेरिएंस रिडक्शन) के लिए लगभग कोई ऑप्शन नहीं
अनालिसिस मेथड फिक्स है, अपनी जरूरत के हिसाब से कस्टमाइज नहीं कर सकते

असली दुनिया का उदाहरण

प्रोडक्ट मैनेजर: पेमेंट कन्वर्जन को बेहतर करना

बॉस कहता है इस सीजन में पेमेंट कन्वर्जन 10% बढ़ाना है। तुम्हारे पास 3 आईडिया हैं, पर पता नहीं कौन सा काम करेगा, पूरे ट्रैफिक पर लाइव करने का हिम्मत नहीं है। A/B टेस्ट करना पड़ेगा, पर पिछली बार Excel से अनालिसिस किया था तो डेटा टीम ने कहा तरीका गलत था।

OpenClaw का तरीका

3 आईडिया OpenClaw को बताओ, वह एक्सपेरिमेंट प्लान बनाता है, सैंपल साइज और अवधि तय करता है। डेटा आ गया? Export करके फिर OpenClaw को दे, वह स्टैटिस्टिकल टेस्ट करता है और असर का मुकाबला करता है। आखिर में एक रिपोर्ट दे जो बॉस समझे, डेटा भी साफ हो, निष्कर्ष भी स्पष्ट हो। मीटिंग में सीधे यूज कर सकते हो। सब कुछ 1 घंटे में हो गया।

शुद्ध हाथ से करना

सैंपल साइज का फॉर्मूला नेट से खोज, 3 बार कैलक्युलेट किया 3 अलग जवाब आए। डेटा आया तो Excel से चाय-स्क्वेयर टेस्ट किया, फॉर्मूला में एक पैरामीटर गलत था। रिपोर्ट लिखी तो पूरी स्टैटिस्टिकल टर्मिनोलॉजी से भरी, बॉस से सवाल आया "तो अभी लॉन्च करूं या नहीं?" रिपोर्ट 3 बार रिवाइज करनी पड़ी, एक हफ्ता निकल गया।

कुछ काम के टिप्स

💡 A/B टेस्ट की सबसे बड़ी गलती है "डेटा चुपके से देखना" - एक्सपेरिमेंट अभी चल रहा है पर नतीजे देख लिए, लगा ठीक है तो बंद कर दिया। इसे "अर्ली स्टॉपिंग बायस" कहते हैं, गलत नतीजे आते हैं। AI से पूछो कितने दिन लगेंगे, उतने दिन के बाद देखो।

🎯 अगर मेट्रिक कन्वर्जन नहीं बल्कि पैसा है, तो Prompt में जरूर बता। पैसे का डेटा आमतौर पर दाहिनी ओर को झुका होता है, अलग तरीके से टेस्ट करना पड़ता है (जैसे Mann-Whitney U), सीधा t-टेस्ट गलत हो सकता है। AI तुम्हें सही तरीका बताएगा।

⚠️ एक्सपेरिमेंट के दौरान बड़ी सेल या छुट्टियां रोको। अगर नहीं रोक सकते, तो Prompt में बताओ कौन से दिन स्पेशल हैं, AI अनालिसिस में उन्हें निकाल या अलग से देखेगा।

क्या ये केस आपके काम आया?