CSV বিশাল ডেটা প্রক্রিয়াকরণ

দশ লক্ষ ডেটার ভয় করো না - OpenClaw সরাসরি Python চালায় সম্পন্ন করে

CSV প্রক্রিয়াকরণের ঝামেলা যা সবাই জানে

দশ লক্ষ সারি ডেটা, Excel সরাসরি পরাজিত

Excel ৫০ লক্ষ সারি খুলতে গেলে চক্র দিতে থাকে, ১০ লক্ষ সারি দিলে সরাসরি বন্ধ হয়ে যায়। ঠিকমতো খোলার পর স্ক্রল বার টানতে গেলে ৫ সেকেন্ড আটকে থাকে।

ডেটা পরিষ্কার করা তো আরো ভয়ঙ্কর: তারিখের ফরম্যাট ३ ধরনের, মোবাইল নম্বরের মধ্যে কোনোটায় এলাকা কোড আছে কোনোটায় নেই, ডুপ্লিকেট সারি মুছলেও আবার বেরিয়ে আসে, ফাঁকা স্থান ০ দিয়ে পূরণ করব নাকি মুছে ফেলব তা বুঝতে পারি না... একটি ডেটা এক সপ্তাহ লাগে, শেষ করার পর আবিষ্কার হয় কয়েক কলাম প্রক্রিয়া করা হয়নি।

OpenClaw: স্থানীয়ভাবে Python চালাও, ডেটা তুমার কম্পিউটারে থাকে

CSV ফাইল OpenClaw এ দাও, এটা সরাসরি স্থানীয়ভাবে Python স্ক্রিপ্ট চালায়, pandas, polars যেকোনো ব্যবহার করো। २०० লক্ষ সারি? কয়েক সেকেন্ডে পড়ে ফেলে।

সবচেয়ে গুরুত্বপূর্ণ বিষয় হলো:তোমার ডেটার একটি বাইটও কোনো সার্ভারে আপলোড হয় না। কোম্পানির বিক্রয় ডেটা, ব্যবহারকারী ব্যক্তিগত তথ্য, আর্থিক প্রতিবেদন - নির্ভয়ে প্রক্রিয়া করো, ডেটা নিরাপত্তার চিন্তা করতে হয় না।

३ টি ডেটা প্রক্রিয়াকরণ Prompt, কপি করে সরাসরি ব্যবহার করো

সংক্ষিপ্তকরণ বিশ্লেষণ থেকে ডেটা পরিষ্কার করা থেকে বহু টেবিল মার্জিং পর্যন্ত, প্রয়োজন অনুসারে নিয়ে যাও।

দশ লক্ষ বিক্রয় ডেটা: মাসিক সংক্ষিপ্তকরণ + শীর্ষ १० সোনালি নির্দেশনা

পড়ো ~/data/sales_2025.csv (প্রায় २०० লক্ষ সারি), এই কাজগুলো করতে সাহায্য করো:

१. মাসিক মোট বিক্রয় পরিমাণ হিসাব করো, মাসিক ট্রেন্ড বের করো
२. বিক্রয় শীর্ষ १० পণ্য খুঁজো, পণ্য নাম এবং মোট অঙ্ক দাও
३. অঞ্চল অনুযায়ী বিভক্ত করো, প্রতিটি অঞ্চলের অর্ডার সংখ্যা এবং গড় ক্রয় মূল্য পরিসংখ্যান বের করো
④. ফলাফল summary.csv এ এক্সপোর্ট করো, ~/data/output/ এ সংরক্ষণ করো

pandas ব্যবহার করো, মেমরি অপটিমাইজেশন মাথায় রাখো (dtype নির্ধারণ করো, প্রয়োজনে চাংক এ পড়ো)।

এটা ডেটা বিশ্লেষণের সবচেয়ে সাধারণ দৃশ্য। २०० লক্ষ সারি স্থানীয়ভাবে pandas এ চালাতে কয়েক সেকেন্ড লাগে, আপলোড সময় এবং ফাইল সাইজ সীমা নিয়ে চিন্তা করতে হয় না। Claude Opus ব্যবহার করার সুপারিশ করি, pandas কোড আরো স্থিতিশীল, সীমানার ক্ষেত্রে আরো ভালো প্রক্রিয়াকরণ করে।

ডেটা পরিষ্কার একটানা: ডুপ্লিকেট অপসারণ + ফরম্যাট একীভূতকরণ + ফাঁকা স্থান পরিচালনা নতুনদের জন্য উপযুক্ত

পরিষ্কার করো ~/data/raw_customers.csv এই ডেটা:

१. সম্পূর্ণ ডুপ্লিকেট সারি অপসারণ করো
२. তারিখ কলাম YYYY-MM-DD ফরম্যাটে একীভূত করো (আসল ডেটায় २०२५/०१/१५, ०१-१५-२०२५, २०२५ বছর १ মাস १५ দিন ইত্যাদি বিভিন্ন ফরম্যাট আছে)
३. মোবাইল নম্বর एकीकृत करो ११ ডিজিটে (এলাকা কোড, স্পেস, হাইফেন অপসারণ করো)
४. ফাঁকা স্থান পরিচালনা: সংখ্যা কলাম মধ্যমা দিয়ে পূরণ করো, বিভাগ কলাম "অজানা" দিয়ে পূরণ করো
५. পরিষ্কার রিপোর্ট বের করো: কত সারি প্রক্রিয়া করেছ, প্রতিটি কলামের প্রক্রিয়াকরণ অবস্থা

পরিষ্কারের পর cleaned_customers.csv হিসেবে সংরক্ষণ করো।

ডেটা পরিষ্কার দেখতে সহজ মনে হয়, ম্যানুয়াল করলে সহজেই মিস করা যায়। AI কে স্ক্রিপ্ট লিখাও এক সাথে চালাও, Excel এ এক কলাম এক কলাম পরিবর্তন করার চেয়ে १०० গুণ দ্রুত, এবং ভুল করার সম্ভাবনা কম।

বহু ফাইল মার্জিং: ५ টি CSV সম্পর্কিত করে প্রশস্ত টেবিল তৈরি করো উন্নত কৌশল

~/data/ ডিরেক্টরিতে ५ টি CSV ফাইল আছে:
- users.csv (ব্যবহারকারী ID, নাম, রেজিস্ট্রেশন সময়, অঞ্চল)
- orders.csv (অর্ডার ID, ব্যবহারকারী ID, পণ্য ID, টাকা, অর্ডার সময়)
- products.csv (পণ্য ID, ক্যাটাগরি, ব্র্যান্ড, একক দাম)
- reviews.csv (ব্যবহারকারী ID, পণ্য ID, রেটিং, পর্যালোচনা সময়)
- returns.csv (অর্ডার ID, রিটার্ন কারণ, রিটার্ন সময়)

আমাকে সাহায্য করো:
१. ব্যবহারকারী ID এবং পণ্য ID দিয়ে এই ५ টেবিল সম্পর্কিত করো, একটি প্রশস্ত টেবিল তৈরি করো
२. one-to-many সম্পর্ক ভালো করে প্রক্রিয়া করো (একজন ব্যবহারকারীর একাধিক অর্ডার)
३. ডেরিভেটিভ ক্ষেত্র যোগ করো: ব্যবহারকারী মোট খরচ, ক্রয় সংখ্যা, গড় রেটিং, রিটার্ন হার
४. merged_wide_table.csv হিসেবে এক্সপোর্ট করো
५. ডেটা কোয়ালিটি রিপোর্ট বের করো: সম্পর্কিত ম্যাচিং হার, অ-সম্পর্কিত রেকর্ড সংখ্যা

বহু টেবিল মার্জিং ডেটা বিশ্লেষণের মৌলিক দক্ষতা, কিন্তু লেখা শুরু করলে JOIN টাইপে পড়ে যাওয়া সহজ। AI তোমার টেবিল কাঠামো অনুযায়ী স্বয়ংক্রিয়ভাবে left join / inner join নির্বাচন করবে, এবং one-to-many সম্ভবত ডেটা বৃদ্ধি সমস্যা সতর্ক করবে।

বড় ডেটা প্রক্রিয়াকরণ কনফিগারেশন পরামর্শ

বড় ফাইল প্রক্রিয়া করার আগে, এই কনফিগারেশনগুলো সামঞ্জস্য করলে আরো মসৃণ।

OpenClaw বড় ডেটা প্রক্রিয়াকরণ কনফিগারেশন (.openclaw.yml)

# বড় ডেটা প্রক্রিয়াকরণ সুপারিশকৃত কনফিগারেশন
sandbox:
  memory_limit: 8GB          # বড় CSV অতিরিক্ত মেমরি প্রয়োজন
  timeout: 600               # জটিল প্রক্রিয়াকরণ কয়েক মিনিট লাগতে পারে
  allowed_paths:
    - ~/data/                 # অনুমতিপ্রাপ্ত পড়া-লেখার ডেটা ডিরেক্টরি
    - ~/output/               # আউটপুট ডিরেক্টরি

python:
  packages:                   # পূর্ব-ইনস্টল সাধারণ ডেটা প্রক্রিয়াকরণ লাইব্রেরি
    - pandas>=2.0
    - polars                  # pandas এর চেয়ে १० গুণ দ্রুত বিকল্প
    - openpyxl                # Excel পড়া লেখা
    - pyarrow                 # parquet ফরম্যাট সমর্থন

model: claude-opus-4         # ডেটা প্রক্রিয়াকরণ Opus সুপারিশ করি, কোড কোয়ালিটি বেশি

CSV প্রক্রিয়াকরণ: OpenClaw বনাম ChatGPT Code Interpreter

দুটোই Python চালাতে পারে, কিন্তু পার্থক্য খুবই বড়।

OpenClaw

স্থানীয়ভাবে চালায়, ফাইল সাইজ সীমা নেই, १० GB এর CSV ও কাজ করে
ডেটা আপলোড হয় না, গোপনীয়তা নিরাপত্তা নিশ্চিত
সরাসরি স্থানীয় ডেটাবেস পড়তে পারে, অভ্যন্তরীণ নেটওয়ার্ক রিসোর্স অ্যাক্সেস করতে পারে
প্রক্রিয়াকরণ ফলাফল সরাসরি স্থানীয়ে সংরক্ষিত, সেশন শেষে মুছে যায় না
যেকোনো Python লাইব্রেরি ইনস্টল করতে পারো, কোনো সীমা নেই

ChatGPT Code Interpreter

ফাইল আপলোড সর্বোচ্চ প্রায় ৫০০ MB, বড় ডেটা প্রক্রিয়াকরণ করতে পারে না
ডেটা OpenAI সার্ভারে পাঠাতে হয়, কোম্পানি ডেটা ব্যবহার করতে নিরাপদ নয়
স্যান্ডবক্স পরিবেশ সীমাবদ্ধ, অনেক লাইব্রেরি ইনস্টল করা যায় না
সেশন শেষে ফাইল চলে যায়, দ্রুত ডাউনলোড করতে হয়
নেটওয়ার্ক ধীর হলে আপলোড দীর্ঘ সময় নেয়, অভিজ্ঞতা খারাপ

বাস্তব পরিস্থিতি

ই-কমার্স পরিচালনা: বার্ষিক ডেটা পর্যালোচনা

বছর শেষে সম্পূর্ণ বছরের ডেটা পর্যালোচনা করতে হবে, १२ মাসের বিক্রয় ডেটা এক ডজন CSV ফাইলে ছড়িয়ে আছে, মোট ५ মিলিয়নের বেশি সারি। বস চায় পরের দিন রিপোর্ট দিতে হবে।

OpenClaw সমাধান

একটি Prompt: १२ মাসের ডেটা মার্জিং, পণ্য/অঞ্চল/মাস বহুমাত্রিক সংক্ষিপ্তকরণ, ট্রেন্ড চার্ট এবং তুলনা টেবিল তৈরি করো, একটি সম্পূর্ণ বিশ্লেষণ রিপোর্ট বের করো। শুরু থেকে ফলাফল পর্যন্ত, २० মিনিটের কম। ডেটা সম্পূর্ণ স্থানীয়, আর্থিক সংবেদনশীল তথ্য ফাঁসের চিন্তা করতে হয় না।

ম্যানুয়াল পদ্ধতি

Excel এ এক এক করে খুলো, খোলার সাথে সাথে কাঁপতে থাকে। VLOOKUP ব্যবহার করে সম্পর্কিত করো, ফর্মুলা ভুল হয় আরেকবার চেক করতে হয়। শুধু ডেটা মার্জিং করতে দুই দিন লাগে, এখনো বিশ্লেষণ শুরু করা যায়নি।

কয়েকটি ব্যবহারিক ছোট কৌশল

💡 অতি বড় CSV প্রক্রিয়া করা (কয়েক GB এর বেশি), Prompt এ একটু বলে দাও "পান্ডাসের বদলে polars ব্যবহার করো", গতি ५-१० গুণ দ্রুত হবে। polars এর মেমরি ব্যবহারও কম।

🎯 ডেটা দেখতে কেমন তা জানো না? প্রথমে AI কে "প্রথম २० লাইন পড়ো, মোটা ডেটা পর্যালোচনা দাও", কলাম নাম, ডেটা টাইপ, ফাঁকা অবস্থা দেখো, তারপর প্রক্রিয়াকরণ Prompt লিখো, প্রথম চেষ্টায় সফল হওয়ার সম্ভাবনা অনেক বেশি।

⚠️ চীনা অক্ষর থাকা CSV প্রক্রিয়া করা, Prompt এ এনকোডিং ফরম্যাট বলে দাও (UTF-८ / GBK)। না হলে পড়া ডেটা হতে পারে জাগাড়া, একটি কথোপকথন বাজে করে দেয়।

এই কেসটা কাজে লেগেছে?