CSV বিশাল ডেটা প্রক্রিয়াকরণ
দশ লক্ষ ডেটার ভয় করো না - OpenClaw সরাসরি Python চালায় সম্পন্ন করে
CSV প্রক্রিয়াকরণের ঝামেলা যা সবাই জানে
Excel ৫০ লক্ষ সারি খুলতে গেলে চক্র দিতে থাকে, ১০ লক্ষ সারি দিলে সরাসরি বন্ধ হয়ে যায়। ঠিকমতো খোলার পর স্ক্রল বার টানতে গেলে ৫ সেকেন্ড আটকে থাকে।
ডেটা পরিষ্কার করা তো আরো ভয়ঙ্কর: তারিখের ফরম্যাট ३ ধরনের, মোবাইল নম্বরের মধ্যে কোনোটায় এলাকা কোড আছে কোনোটায় নেই, ডুপ্লিকেট সারি মুছলেও আবার বেরিয়ে আসে, ফাঁকা স্থান ০ দিয়ে পূরণ করব নাকি মুছে ফেলব তা বুঝতে পারি না... একটি ডেটা এক সপ্তাহ লাগে, শেষ করার পর আবিষ্কার হয় কয়েক কলাম প্রক্রিয়া করা হয়নি।
CSV ফাইল OpenClaw এ দাও, এটা সরাসরি স্থানীয়ভাবে Python স্ক্রিপ্ট চালায়, pandas, polars যেকোনো ব্যবহার করো। २०० লক্ষ সারি? কয়েক সেকেন্ডে পড়ে ফেলে।
সবচেয়ে গুরুত্বপূর্ণ বিষয় হলো:তোমার ডেটার একটি বাইটও কোনো সার্ভারে আপলোড হয় না। কোম্পানির বিক্রয় ডেটা, ব্যবহারকারী ব্যক্তিগত তথ্য, আর্থিক প্রতিবেদন - নির্ভয়ে প্রক্রিয়া করো, ডেটা নিরাপত্তার চিন্তা করতে হয় না।
३ টি ডেটা প্রক্রিয়াকরণ Prompt, কপি করে সরাসরি ব্যবহার করো
সংক্ষিপ্তকরণ বিশ্লেষণ থেকে ডেটা পরিষ্কার করা থেকে বহু টেবিল মার্জিং পর্যন্ত, প্রয়োজন অনুসারে নিয়ে যাও।
পড়ো ~/data/sales_2025.csv (প্রায় २०० লক্ষ সারি), এই কাজগুলো করতে সাহায্য করো:
१. মাসিক মোট বিক্রয় পরিমাণ হিসাব করো, মাসিক ট্রেন্ড বের করো
२. বিক্রয় শীর্ষ १० পণ্য খুঁজো, পণ্য নাম এবং মোট অঙ্ক দাও
३. অঞ্চল অনুযায়ী বিভক্ত করো, প্রতিটি অঞ্চলের অর্ডার সংখ্যা এবং গড় ক্রয় মূল্য পরিসংখ্যান বের করো
④. ফলাফল summary.csv এ এক্সপোর্ট করো, ~/data/output/ এ সংরক্ষণ করো
pandas ব্যবহার করো, মেমরি অপটিমাইজেশন মাথায় রাখো (dtype নির্ধারণ করো, প্রয়োজনে চাংক এ পড়ো)।
পরিষ্কার করো ~/data/raw_customers.csv এই ডেটা:
१. সম্পূর্ণ ডুপ্লিকেট সারি অপসারণ করো
२. তারিখ কলাম YYYY-MM-DD ফরম্যাটে একীভূত করো (আসল ডেটায় २०२५/०१/१५, ०१-१५-२०२५, २०२५ বছর १ মাস १५ দিন ইত্যাদি বিভিন্ন ফরম্যাট আছে)
३. মোবাইল নম্বর एकीकृत करो ११ ডিজিটে (এলাকা কোড, স্পেস, হাইফেন অপসারণ করো)
४. ফাঁকা স্থান পরিচালনা: সংখ্যা কলাম মধ্যমা দিয়ে পূরণ করো, বিভাগ কলাম "অজানা" দিয়ে পূরণ করো
५. পরিষ্কার রিপোর্ট বের করো: কত সারি প্রক্রিয়া করেছ, প্রতিটি কলামের প্রক্রিয়াকরণ অবস্থা
পরিষ্কারের পর cleaned_customers.csv হিসেবে সংরক্ষণ করো।
~/data/ ডিরেক্টরিতে ५ টি CSV ফাইল আছে:
- users.csv (ব্যবহারকারী ID, নাম, রেজিস্ট্রেশন সময়, অঞ্চল)
- orders.csv (অর্ডার ID, ব্যবহারকারী ID, পণ্য ID, টাকা, অর্ডার সময়)
- products.csv (পণ্য ID, ক্যাটাগরি, ব্র্যান্ড, একক দাম)
- reviews.csv (ব্যবহারকারী ID, পণ্য ID, রেটিং, পর্যালোচনা সময়)
- returns.csv (অর্ডার ID, রিটার্ন কারণ, রিটার্ন সময়)
আমাকে সাহায্য করো:
१. ব্যবহারকারী ID এবং পণ্য ID দিয়ে এই ५ টেবিল সম্পর্কিত করো, একটি প্রশস্ত টেবিল তৈরি করো
२. one-to-many সম্পর্ক ভালো করে প্রক্রিয়া করো (একজন ব্যবহারকারীর একাধিক অর্ডার)
३. ডেরিভেটিভ ক্ষেত্র যোগ করো: ব্যবহারকারী মোট খরচ, ক্রয় সংখ্যা, গড় রেটিং, রিটার্ন হার
४. merged_wide_table.csv হিসেবে এক্সপোর্ট করো
५. ডেটা কোয়ালিটি রিপোর্ট বের করো: সম্পর্কিত ম্যাচিং হার, অ-সম্পর্কিত রেকর্ড সংখ্যা
বড় ডেটা প্রক্রিয়াকরণ কনফিগারেশন পরামর্শ
বড় ফাইল প্রক্রিয়া করার আগে, এই কনফিগারেশনগুলো সামঞ্জস্য করলে আরো মসৃণ।
# বড় ডেটা প্রক্রিয়াকরণ সুপারিশকৃত কনফিগারেশন
sandbox:
memory_limit: 8GB # বড় CSV অতিরিক্ত মেমরি প্রয়োজন
timeout: 600 # জটিল প্রক্রিয়াকরণ কয়েক মিনিট লাগতে পারে
allowed_paths:
- ~/data/ # অনুমতিপ্রাপ্ত পড়া-লেখার ডেটা ডিরেক্টরি
- ~/output/ # আউটপুট ডিরেক্টরি
python:
packages: # পূর্ব-ইনস্টল সাধারণ ডেটা প্রক্রিয়াকরণ লাইব্রেরি
- pandas>=2.0
- polars # pandas এর চেয়ে १० গুণ দ্রুত বিকল্প
- openpyxl # Excel পড়া লেখা
- pyarrow # parquet ফরম্যাট সমর্থন
model: claude-opus-4 # ডেটা প্রক্রিয়াকরণ Opus সুপারিশ করি, কোড কোয়ালিটি বেশি
CSV প্রক্রিয়াকরণ: OpenClaw বনাম ChatGPT Code Interpreter
দুটোই Python চালাতে পারে, কিন্তু পার্থক্য খুবই বড়।
- স্থানীয়ভাবে চালায়, ফাইল সাইজ সীমা নেই, १० GB এর CSV ও কাজ করে
- ডেটা আপলোড হয় না, গোপনীয়তা নিরাপত্তা নিশ্চিত
- সরাসরি স্থানীয় ডেটাবেস পড়তে পারে, অভ্যন্তরীণ নেটওয়ার্ক রিসোর্স অ্যাক্সেস করতে পারে
- প্রক্রিয়াকরণ ফলাফল সরাসরি স্থানীয়ে সংরক্ষিত, সেশন শেষে মুছে যায় না
- যেকোনো Python লাইব্রেরি ইনস্টল করতে পারো, কোনো সীমা নেই
- ফাইল আপলোড সর্বোচ্চ প্রায় ৫০০ MB, বড় ডেটা প্রক্রিয়াকরণ করতে পারে না
- ডেটা OpenAI সার্ভারে পাঠাতে হয়, কোম্পানি ডেটা ব্যবহার করতে নিরাপদ নয়
- স্যান্ডবক্স পরিবেশ সীমাবদ্ধ, অনেক লাইব্রেরি ইনস্টল করা যায় না
- সেশন শেষে ফাইল চলে যায়, দ্রুত ডাউনলোড করতে হয়
- নেটওয়ার্ক ধীর হলে আপলোড দীর্ঘ সময় নেয়, অভিজ্ঞতা খারাপ