CSV बड़ा डेटा प्रोसेसिंग

10 लाख की डेटा से डर मत खाओ - OpenClaw सीधे Python चलाता है

CSV के साथ की परेशानियां

10 लाख लाइन का डेटा, Excel सो गया

Excel में 50 लाख लाइन खोलो तो घूमने लगता है, 10 लाख तो सीधे बंद हो जाता है। बड़ी मेहनत से खुल जाए तो स्क्रॉल करने में 5 सेकंड लग जाते हैं।

डेटा क्लीन करना तो और भी बुरा है: डेट के फॉर्मेट 3 तरह के हैं, फोन नंबर में कहीं एरिया कोड है कहीं नहीं, डुप्लीकेट लाइनें हटाओ तो फिर नए आ जाते हैं, खाली सेल भरने में समझ नहीं आता 0 भरूं या हटा दूं... एक डेटा सेट पर एक हफ्ता लग गया, तब भी कुछ कॉलम छूट गए।

OpenClaw: लोकल में Python चला, डेटा तुम्हारे कंप्यूटर पर ही रहे

CSV फाइल OpenClaw को दे, वह लोकल में Python स्क्रिप्ट चलाता है, pandas, polars - जो चाहो। 20 लाख लाइन? कुछ सेकंड में पढ़ ले।

अहम बात यह है:तुम्हारा डेटा एक बिट भी किसी सर्वर पर अपलोड नहीं होगा। कंपनी का सेल्स डेटा, यूजर की प्राइवेट जानकारी, फाइनेंशियल रिपोर्ट - बेफिक्र होकर प्रोसेस कर सकते हो, डेटा सिक्योरिटी की चिंता करने की जरूरत नहीं।

3 Prompt टेम्पलेट, सीधे कॉपी करके यूज करो

सरलीकरण से लेकर डेटा क्लीनिंग तक, जो चाहिए ले लो।

10 लाख की सेल्स डेटा: महीने के अनुसार समरी + टॉप 10 गोल्डन इंस्ट्रक्शन
~/data/sales_2025.csv को खोलो (करीब 20 लाख लाइन), यह सब करो:

1. महीने के हिसाब से कुल सेल्स, महीने का ट्रेंड दिखा
2. सबसे ज्यादा बिकने वाले 10 प्रोडक्ट, नाम और कुल बिक्री दोनों
3. हर इलाके में कुल ऑर्डर और औसत ऑर्डर वैल्यू
4. रिजल्ट को summary.csv में सेव कर, ~/data/output/ में रख

pandas से करो, मेमोरी को भी ध्यान रख (dtype सेट कर, जरूरत पड़े तो चंक में पढ़)।
यह डेटा अनालिसिस का सबसे आम काम है। 20 लाख लाइन भी लोकल में pandas से कुछ सेकंड में चल जाता है, अपलोड का टाइम और साइज की चिंता नहीं। Claude Opus यूज करने की सलाह है, pandas कोड और भी अच्छा लिखता है, सब कुछ सम्भाल लेता है।
डेटा क्लीनिंग एक पूरी सवारी: डुप्लीकेट निकालो + फॉर्मेट एक जैसा करो + खाली जगह भरो शुरुआत के लिए आसान
~/data/raw_customers.csv को क्लीन करो:

1. पूरी तरह डुप्लीकेट लाइनें निकाल
2. डेट का फॉर्मेट एक जैसा करो YYYY-MM-DD में (अभी 2025/01/15, 01-15-2025, 2025 जनवरी 15 - ऐसे मिक्स हैं)
3. फोन नंबर को 11 डिजिट का शुद्ध नंबर बना (एरिया कोड, स्पेस, डैश सब हटा)
4. खाली जगह भरो: नंबर के लिए मेडियन, टेक्स्ट के लिए "अनजान"
5. एक रिपोर्ट दे: कितनी लाइनें प्रोसेस हुईं, हर कॉलम में क्या किया

क्लीन डेटा को cleaned_customers.csv में सेव कर।
डेटा क्लीनिंग आसान लगता है पर हाथ से करते हैं तो कई चीजें छूट जाती हैं। AI से स्क्रिप्ट लिखवा लो, बहुत तेजी से चल जाता है, गलती की गुंजाइश भी कम होती है।
मल्टीपल फाइल को जोड़ो: 5 CSV से एक बड़ी टेबल बना एडवांस ट्रिक
~/data/ फोल्डर में 5 CSV फाइलें हैं:
- users.csv (यूजर ID, नाम, रजिस्ट्रेशन का समय, इलाका)
- orders.csv (ऑर्डर ID, यूजर ID, प्रोडक्ट ID, कीमत, ऑर्डर का समय)
- products.csv (प्रोडक्ट ID, कैटेगरी, ब्रांड, कीमत)
- reviews.csv (यूजर ID, प्रोडक्ट ID, रेटिंग, रिव्यू का समय)
- returns.csv (ऑर्डर ID, रिटर्न की वजह, रिटर्न का समय)

मुझे यह करना है:
1. यूजर ID और प्रोडक्ट ID से सभी 5 को जोड़, एक बड़ी टेबल बना
2. एक-से-कई का रिश्ता संभाल (एक यूजर के कई ऑर्डर)
3. नई कॉलम जोड़: यूजर का कुल खर्च, कितनी बार खरीदा, औसत रेटिंग, रिटर्न की दर
4. merged_wide_table.csv में सेव कर
5. डेटा क्वालिटी की रिपोर्ट: कितने रिकॉर्ड मैच हुए, कितने नहीं
मल्टीपल टेबल जोड़ना डेटा अनालिसिस की बुनियाद है, पर JOIN के तरीके में जल्दी गलती हो जाती है। AI तुम्हारे टेबल का स्ट्रक्चर देखकर सही तरीका चुनेगा - left join या inner join। और यह भी बताएगा कि एक-से-कई के रिश्ते में डेटा कितना बढ़ जाएगा।

बड़े डेटा के लिए सेटअप सुझाव

बड़ी फाइल प्रोसेस करने से पहले ये सेटिंग्स कर लो तो और सुगम चलेगा।

OpenClaw बड़े डेटा के लिए सेटअप (.openclaw.yml)
# बड़े डेटा के लिए सुझाव
sandbox:
  memory_limit: 8GB          # बड़ी CSV को ज्यादा मेमोरी चाहिए
  timeout: 600               # कॉम्प्लेक्स काम कुछ मिनट ले सकता है
  allowed_paths:
    - ~/data/                 # डेटा को पढ़ने-लिखने के लिए रास्ता
    - ~/output/               # आउटपुट का फोल्डर

python:
  packages:                   # डेटा प्रोसेसिंग के जरूरी लाइब्रेरी
    - pandas>=2.0
    - polars                  # pandas से 10 गुना तेज विकल्प
    - openpyxl                # Excel को पढ़ने-लिखने के लिए
    - pyarrow                 # parquet फॉर्मेट के लिए

model: claude-opus-4         # बड़े डेटा के लिए Opus सुझाया जाता है

CSV प्रोसेसिंग: OpenClaw बनाम ChatGPT Code Interpreter

दोनों ही Python चला सकते हैं, पर अंतर खासा है।

OpenClaw
  • लोकल में चलता है, फाइल का साइज कोई लिमिट नहीं, 10 GB की CSV भी चल जाएगी
  • डेटा अपलोड नहीं होता, प्राइवेसी सुरक्षित है
  • लोकल डेटाबेस को सीधे एक्सेस कर सकते हो, इंटरनल नेटवर्क भी एक्सेस हो सकता है
  • प्रोसेसिंग के नतीजे सीधे लोकल में सेव होते हैं, चैट खत्म होने पर गायब नहीं होते
  • कोई भी Python लाइब्रेरी इंस्टॉल कर सकते हो, कोई रोक-टोक नहीं
VS
ChatGPT Code Interpreter
  • फाइल अपलोड की लिमिट करीब 500MB है, बड़ा डेटा प्रोसेस नहीं कर सकते
  • डेटा OpenAI के सर्वर पर जाता है, कंपनी का डेटा इस्तेमाल करने में डर लगता है
  • सैंडबॉक्स की सीमाएं, कई लाइब्रेरी इंस्टॉल नहीं हो सकती
  • चैट खत्म हो तो फाइलें गायब हो जाती हैं, तेजी से डाउनलोड करना पड़ता है
  • नेटवर्क धीमा हो तो अपलोड में बहुत समय लगता है, अनुभव खराब होता है

असली दुनिया का उदाहरण

ई-कॉमर्स ऑपरेशन: सालाना डेटा का जायजा
साल के आखिर में पूरे साल का डेटा चेक करना है, 12 महीने का सेल्स डेटा दर्जनों CSV में बंटा है, कुल 50 लाख से ज्यादा लाइनें। बॉस को कहता है परसों रिपोर्ट दे।
OpenClaw का तरीका
एक Prompt से काम हो गया: 12 महीने की डेटा को जोड़ दिया, कैटेगरी/इलाका/महीने के हिसाब से मल्टीपल तरीके से समरी बना, ट्रेंड ग्राफ और मुकाबला की टेबल बनाई, एक कंप्लीट अनालिसिस रिपोर्ट दे दी। शुरुआत से नतीजे तक, 20 मिनट नहीं लगे। डेटा पूरा लोकल में रहा, फाइनेंशियल संवेदनशील जानकारी को कोई खतरा नहीं।
हाथ से करने का तरीका
Excel में एक-एक CSV खोलो, कुछ तो खुलते ही हैंग कर जाते हैं। VLOOKUP से जोड़ने की कोशिश करो, फॉर्मूला गलत हो जाते हैं। सिर्फ डेटा जोड़ने में ही 2 दिन निकल गए, अनालिसिस तो शुरू भी नहीं हुआ।

कुछ काम के टिप्स

💡 बहुत बड़ी CSV (कुछ GB) प्रोसेस कर रहे हो? Prompt में कह "pandas की जगह polars यूज कर", स्पीड 5-10 गुना बढ़ जाएगी। polars का मेमोरी यूजेज भी कम होता है।
🎯 डेटा का अंदाजा नहीं? पहले AI से कहो "पहली 20 लाइन दिखा, डेटा की ओवरव्यू दे", कॉलम का नाम, डेटा का टाइप, कितना खाली है - सब समझ आ जाएगा। फिर अपना सही Prompt लिखो, एक बार में काम हो जाएगा।
⚠️ चीनी भाषा की CSV प्रोसेस कर रहे हो? Prompt में बता कि एनकोडिंग कौन सी है (UTF-8 या GBK)। नहीं तो जो पढ़ेगा वह गलत निकलेगा, एक बार और सवाल करना पड़ेगा।
क्या ये केस आपके काम आया?