PDF ব্যাচ প্রসেসিং

চুক্তি, রিপোর্টস, ইনভয়েস — শত শত PDF একটা ইন্সট্রাকশনে সলভ করো।

PDF এর দুঃস্বপ্ন

শত শত PDF হাতে-কলমে সামলানো, টেবিল কপি করলে সব বিশৃঙ্খল, স্ক্যান করা ডকুমেন্ট সার্চ করা যায় না।

বসের অর্ডার এলো "এই ২০০টা চুক্তিতে স্বাক্ষর ডেট ও এমাউন্ট সব একটা শীটে সাজাও"। প্রথমটা খুলছ, ডেট খুঁজছ, কপি করছ, Excel এ যাচ্ছ, পেস্ট করছ। দ্বিতীয়টা খুলছ... সারাদিন লাগিয়ে ৪০টা করেছ, এখনও ১৬০টা বাকি। জীবনের মানে নিয়ে প্রশ্ন উঠছে।

PDF এর টেবিল তো আরও ভয়াবহ। দেখতে সুন্দর সাজানো, কপি করলেই সব এক হয়ে যায়। কলাম ম্যাচ করে না, নাম্বার আর টেক্সট মিশে যায়, ফরম্যাট সব হারায়। ম্যানুয়াল এন্ট্রির চেয়ে বেশি টাইম ফরম্যাট ঠিক করতে লাগে।

স্ক্যান করা ফাইলও আছে। ক্লায়েন্ট স্ক্যান করা ইনভয়েস PDF এর বান্ডেল পাঠায়, টেক্সট কপি করাও যায় না, সার্চ তো দূরের কথা। পর্দা দেখে একটা একটা করে নাম্বার টাইপ করছ। শেষে আবিষ্কার যে তৃতীয় ইনভয়েসের এমাউন্ট ভুল দেখেছ, আবার চেক করতে হয়।

OpenClaw দিয়ে ব্যাচ প্রসেস PDF: এক্সট্র্যাক্ট, মার্জ, রিকগনাইজ সব একসাথে।

OpenClaw পারে PDF এর তিনটা বড় সমস্যা সলভ করতে:

१. ব্যাচ ইনফরমেশন এক্সট্র্যাকশন — এটাকে বলো "এই চুক্তিগুলো থেকে ডেট, এমাউন্ট, ফার্স্ট পার্টি এক্সট্র্যাক্ট করো", শত শত PDF অটোমেটিক স্ক্যান হয়, রেজাল্ট সরাসরি টেবিল হিসেবে আউটপুট।
२. টেবিল রিকগনিশন — PDF এর টেবিল রিকগনাইজ করে Excel এ কনভার্ট করে, কলাম সারিবদ্ধ, নাম্বার নাম্বার হিসেবে, টেক্সট টেক্সট হিসেবে, ফরম্যাট ম্যানুয়ালি ফিক্স করতে হয় না।
३. OCR রিকগনিশন — স্ক্যান করা ফাইলও সামলাতে পারে। টেক্সট রিকগনাইজ হলে সার্চ করা যায়, এক্সট্র্যাক্ট করা যায়, ট্রান্সলেট করা যায়।

२०० চুক্তির ইনফরমেশন এক্সট্র্যাকশন? আগে তিন দিন লাগত, এখন একটা ইন্সট্রাকশন, কফি পান ফিরে এলে ডান।

३ টা PDF প্রসেসিং Prompt, কপি করে সরাসরি ব্যবহার করো।

ইনফরমেশন এক্সট্র্যাকশন, OCR কনভার্শন, ব্যাচ মার্জ — সবচেয়ে কমন PDF জব সব কভার করে।

চুক্তির কী ইনফো ব্যাচ এক্সট্র্যাক্ট করো। গোল্ডেন ইন্সট্রাকশন
এই ফোল্ডারের ५० টা PDF চুক্তি থেকে এই ইনফরমেশনগুলো এক্সট্র্যাক্ট করো:

এক্সট্র্যাক্ট করার ফিল্ডস:
१. চুক্তির নম্বর
२. স্বাক্ষরের ডেট
३. চুক্তির এমাউন্ট (কারেন্সি সহ)
४. প্রথম পক্ষের নাম
५. দ্বিতীয় পক্ষের নাম
६. চুক্তির টার্ম (স্টার্ট ও এন্ড ডেট)
७. পেমেন্ট টার্মস (যদি থাকে)

আউটপুট ফরম্যাট:
- একটা টেবিল তৈরি করো, প্রতিটা চুক্তি একটা রো
- যদি ফিল্ড চুক্তিতে না পাও, "খুঁজে পায় নি" মার্ক করো
- শেষে স্ট্যাটস: টোটাল চুক্তি, টোটাল এমাউন্ট, প্রথম/শেষ স্বাক্ষর ডেট

নোট: কিছু চুক্তি স্ক্যান করা ফাইল (ইমেজ PDF), OCR আগে এক্সট্র্যাক্ট করতে হবে।
লয়ার, লিগ্যাল, প্রকিউরমেন্ট সবার জন্য সবচেয়ে কমন সিনারিও। এই Prompt এক্সট্র্যাক্ট করার ফিল্ডস পরিষ্কারভাবে বলে, AI মিস করবে না। তোমার চুক্তিতে অন্য কী ফিল্ড থাকলে (যেমন পেনাল্টি ক্লজ) সরাসরি যোগ করো।
স্ক্যান করা PDF টেবিল Excel এ কনভার্ট করো। বিগিনার ফ্রেন্ডলি
এই স্ক্যান করা PDF টেবিল রিকগনাইজ করে Excel এ কনভার্ট করো।

রিকোয়ারমেন্টস:
१. OCR দিয়ে টেবিলের সব টেক্সট ও নাম্বার রিকগনাইজ করো
२. অরিজিনাল টেবিলের রো-কলাম স্ট্রাকচার রাখো
३. নাম্বার কলামকে নাম্বার ফরম্যাট হিসেবে রিকগনাইজ করো (টেক্সট হিসেবে না)
४. ডেট কলামকে YYYY-MM-DD ফরম্যাটে ইউনিফাই করো
५. মার্জড সেল থাকলে ওরিজিনাল অনুযায়ী রাখো
६. রিকগনিশন আনসিওর হলে [?] দিয়ে মার্ক করো

PDF ফাইল: [আপলোড করো]

আউটপুট: Excel ফরম্যাট, প্রথম লাইন হেডার।
স্ক্যান ফাইলকে Excel এ কনভার্ট করতে আগে প্রফেশনাল OCR সফটওয়্যার লাগত, দাম বেশি ও ইউজ করতেও জটিল। এখন AI এর রিকগনিশন অ্যাকুরেসি অনেক বেশি, বিশেষত প্রিন্টেড টেক্সটে। হাতে লেখা টেক্সটে অ্যাকুরেসি কম, একবার চেক করে নেওয়ার মতো।
ব্যাচ মার্জ PDF + সর্ট করো + পেজ নম্বর যোগ করো। এডভান্সড টিপস
এই PDF ফাইলগুলো ব্যাচ মার্জ করো, এই রিকোয়ারমেন্টস মেনে:

१. সর্টিং রুল: ফাইল নেমের নাম্বার পার্ট অনুযায়ী সর্ট করো
   এক্সেম্পল: report_01.pdf → report_02.pdf → report_10.pdf
   (নোট করো এটা নাম্বার সর্ট, বর্ণানুক্রমিক সর্ট নয়, १० আসবে २ এর পরে)

२. মার্জ করার পর হ্যান্ডলিং:
   - প্রতিটা পেজের নিচের রাইটে পেজ নাম্বার যোগ করো (ফরম্যাট: পেজ X / টোটাল Y)
   - মার্জ করা PDF এর শুরুতে কন্টেন্টস পেজ জেনারেট করো
   - কন্টেন্টসে প্রতিটা অরিজিনাল ফাইলের নাম ও স্টার্ট পেজ নম্বর থাকবে

३. আউটপুট:
   - মার্জ করা PDF ফাইল
   - একটা লগ ফাইল, মার্জ করা ফাইল, অর্ডার, প্রতিটা ফাইলের পেজ কাউন্ট রেকর্ড করে

এই ফিচারের জন্য Python স্ক্রিপ্ট দাও (PyPDF२ বা reportlab ব্যবহার করো)।
এই Prompt আউটপুট Python স্ক্রিপ্ট, তুমি লোকালি রান করো। PDF মার্জ করার ঘন ঘন প্রয়োজন হলে এটা পারফেক্ট। স্ক্রিপ্ট সেভ করে রাখো, পরবার সরাসরি ইউজ করো, আবার AI কে জিজ্ঞেস করতে হবে না।

PDF প্রসেসিং: OpenClaw বনাম Adobe Acrobat

OpenClaw
  • ব্যাচ ইনফো এক্সট্র্যাকশন স্ট্রং পয়েন্ট — শত শত PDF একটা ইন্সট্রাকশনে প্রসেস করো।
  • এক্সট্র্যাকশন রুলস সম্পূর্ণ কাস্টমাইজেবল, যেকোনো ফিল্ড এক্সট্র্যাক্ট করতে পারো।
  • অটো স্ক্রিপ্ট জেনারেট করতে পারে, পরবার একই ধরনের টাস্কে ওয়ান-ক্লিক রিইউজ।
  • OCR + ইনফো এক্সট্র্যাকশন + ফরম্যাট কনভার্শন ওয়ান-স্টপ।
VS
Adobe Acrobat Pro
  • PDF এডিটিং পাওয়ার স্ট্রং — টেক্সট চেঞ্জ করতে, ইমেজ চেঞ্জ করতে, লেআউট চেঞ্জ করতে পারো।
  • OCR রিকগনিশন অ্যাকুরেসি হাই, বিশেষত ইংলিশ ডকুমেন্ট।
  • ব্যাচ ফিচার আছে কিন্তু অপারেট করা কমপ্লেক্স, Action Wizard শিখতে হয়।
  • বার্ষিক সাবস্ক্রিপশন, দাম কম নয়; ইনফো এক্সট্র্যাকশন ক্ষমতা লিমিটেড।

রিয়েল সিনারিও

লিগ্যাল ফার্ম: २०० চুক্তির ডিউ ডিলিজেন্স
এম অ্যান্ড এ প্রজেক্টের ডিউ ডিলিজেন্স করতে হবে, অন্যদিক २००+ চুক্তি দিল। লয়ারদের প্রতিটা চুক্তি থেকে কী টার্মস, এক্সপায়ারি ডেট, রিস্ক পয়েন্টস এক্সট্র্যাক্ট করতে হয়। ট্র্যাডিশনাল উপায়ে দুজন লিগ্যাল অ্যাসিস্ট্যান্টকে সম্পূর্ণ এক সপ্তাহ লাগবে।
OpenClaw সলিউশন
এক্সট্র্যাকশন Prompt লিখো (চুক্তি নাম্বার, স্বাক্ষর ডেট, এমাউন্ট, কী টার্মস, রিস্ক টার্মস), २०० PDF ব্যাচ প্রসেস করো। २ ঘণ্টায় রেজাল্ট পাও, অটোমেটিক্যালি টেবিল করো। লয়ার শুধু AI এর মার্ক করা १५ টা রিস্ক টার্মস চুক্তি গভীরভাবে চেক করলেই হয়, ডিউ ডিলিজেন্স টাইম এক সপ্তাহ থেকে দেড় দিন পর্যন্ত সংক্ষিপ্ত।
পিওর ম্যানুয়াল পদ্ধতি
দুজন লিগ্যাল অ্যাসিস্ট্যান্ট একটা একটা চেক করে, প্রতিটা চুক্তি २०-३० পেজ, ८० নম্বরে আসতে চোখ ঝাপসা হতে শুরু করে। দুটো ইম্পর্ট্যান্ট জুরিসডিকশন টার্মস মিস করে, ক্লোজিংয়ের আগে পায়, প্রায় সম্পূর্ণ ডিল অগ্রগতি প্রভাবিত করতে পারত। প্লাস মধ্যরাত २ টা পর্যন্ত ওভারটাইম, পরদিন আবার চালিয়ে যেতে হয়।

কয়েকটা প্র্যাকটিক্যাল টিপস

💡 ইনফো এক্সট্র্যাক্ট করার আগে २-३ টা PDF টেস্ট রান করো, এক্সট্র্যাকশন ঠিক কিনা দেখো। কনফার্ম করে তারপর ব্যাচ রান করো, २०० টা সব রান করার পর এক্সট্র্যাকশন রুল ভুল ডিসকভার করা এভয়েড করো।
🎯 তুমি যদি একই ধরনের PDF রেগুলার সামলাও (যেমন মান্থলি ইনভয়েস, কোয়ার্টারলি রিপোর্টস), AI কে একটা Python স্ক্রিপ্ট বানিয়ে সেভ করতে বলো। পরবার সরাসরি স্ক্রিপ্ট রান করো, Prompt লেখার দরকার নেই।
⚠️ স্ক্যান করা ফাইলের OCR রিকগনিশন १००% অ্যাকুরেট না, বিশেষত হাতে লেখা, স্ট্যাম্প ওভারলে, ব্লারি স্ক্যান। এমাউন্ট ও ডেট রিলেটেড কী ইনফো অবশ্যই ম্যানুয়ালি ভেরিফাই করো।
এই কেসটা কাজে লেগেছে?