PDF ব্যাচ প্রসেসিং
চুক্তি, রিপোর্টস, ইনভয়েস — শত শত PDF একটা ইন্সট্রাকশনে সলভ করো।
PDF এর দুঃস্বপ্ন
বসের অর্ডার এলো "এই ২০০টা চুক্তিতে স্বাক্ষর ডেট ও এমাউন্ট সব একটা শীটে সাজাও"। প্রথমটা খুলছ, ডেট খুঁজছ, কপি করছ, Excel এ যাচ্ছ, পেস্ট করছ। দ্বিতীয়টা খুলছ... সারাদিন লাগিয়ে ৪০টা করেছ, এখনও ১৬০টা বাকি। জীবনের মানে নিয়ে প্রশ্ন উঠছে।
PDF এর টেবিল তো আরও ভয়াবহ। দেখতে সুন্দর সাজানো, কপি করলেই সব এক হয়ে যায়। কলাম ম্যাচ করে না, নাম্বার আর টেক্সট মিশে যায়, ফরম্যাট সব হারায়। ম্যানুয়াল এন্ট্রির চেয়ে বেশি টাইম ফরম্যাট ঠিক করতে লাগে।
স্ক্যান করা ফাইলও আছে। ক্লায়েন্ট স্ক্যান করা ইনভয়েস PDF এর বান্ডেল পাঠায়, টেক্সট কপি করাও যায় না, সার্চ তো দূরের কথা। পর্দা দেখে একটা একটা করে নাম্বার টাইপ করছ। শেষে আবিষ্কার যে তৃতীয় ইনভয়েসের এমাউন্ট ভুল দেখেছ, আবার চেক করতে হয়।
OpenClaw পারে PDF এর তিনটা বড় সমস্যা সলভ করতে:
१. ব্যাচ ইনফরমেশন এক্সট্র্যাকশন — এটাকে বলো "এই চুক্তিগুলো থেকে ডেট, এমাউন্ট, ফার্স্ট পার্টি এক্সট্র্যাক্ট করো", শত শত PDF অটোমেটিক স্ক্যান হয়, রেজাল্ট সরাসরি টেবিল হিসেবে আউটপুট।
२. টেবিল রিকগনিশন — PDF এর টেবিল রিকগনাইজ করে Excel এ কনভার্ট করে, কলাম সারিবদ্ধ, নাম্বার নাম্বার হিসেবে, টেক্সট টেক্সট হিসেবে, ফরম্যাট ম্যানুয়ালি ফিক্স করতে হয় না।
३. OCR রিকগনিশন — স্ক্যান করা ফাইলও সামলাতে পারে। টেক্সট রিকগনাইজ হলে সার্চ করা যায়, এক্সট্র্যাক্ট করা যায়, ট্রান্সলেট করা যায়।
२०० চুক্তির ইনফরমেশন এক্সট্র্যাকশন? আগে তিন দিন লাগত, এখন একটা ইন্সট্রাকশন, কফি পান ফিরে এলে ডান।
३ টা PDF প্রসেসিং Prompt, কপি করে সরাসরি ব্যবহার করো।
ইনফরমেশন এক্সট্র্যাকশন, OCR কনভার্শন, ব্যাচ মার্জ — সবচেয়ে কমন PDF জব সব কভার করে।
এই ফোল্ডারের ५० টা PDF চুক্তি থেকে এই ইনফরমেশনগুলো এক্সট্র্যাক্ট করো:
এক্সট্র্যাক্ট করার ফিল্ডস:
१. চুক্তির নম্বর
२. স্বাক্ষরের ডেট
३. চুক্তির এমাউন্ট (কারেন্সি সহ)
४. প্রথম পক্ষের নাম
५. দ্বিতীয় পক্ষের নাম
६. চুক্তির টার্ম (স্টার্ট ও এন্ড ডেট)
७. পেমেন্ট টার্মস (যদি থাকে)
আউটপুট ফরম্যাট:
- একটা টেবিল তৈরি করো, প্রতিটা চুক্তি একটা রো
- যদি ফিল্ড চুক্তিতে না পাও, "খুঁজে পায় নি" মার্ক করো
- শেষে স্ট্যাটস: টোটাল চুক্তি, টোটাল এমাউন্ট, প্রথম/শেষ স্বাক্ষর ডেট
নোট: কিছু চুক্তি স্ক্যান করা ফাইল (ইমেজ PDF), OCR আগে এক্সট্র্যাক্ট করতে হবে।
এই স্ক্যান করা PDF টেবিল রিকগনাইজ করে Excel এ কনভার্ট করো।
রিকোয়ারমেন্টস:
१. OCR দিয়ে টেবিলের সব টেক্সট ও নাম্বার রিকগনাইজ করো
२. অরিজিনাল টেবিলের রো-কলাম স্ট্রাকচার রাখো
३. নাম্বার কলামকে নাম্বার ফরম্যাট হিসেবে রিকগনাইজ করো (টেক্সট হিসেবে না)
४. ডেট কলামকে YYYY-MM-DD ফরম্যাটে ইউনিফাই করো
५. মার্জড সেল থাকলে ওরিজিনাল অনুযায়ী রাখো
६. রিকগনিশন আনসিওর হলে [?] দিয়ে মার্ক করো
PDF ফাইল: [আপলোড করো]
আউটপুট: Excel ফরম্যাট, প্রথম লাইন হেডার।
এই PDF ফাইলগুলো ব্যাচ মার্জ করো, এই রিকোয়ারমেন্টস মেনে:
१. সর্টিং রুল: ফাইল নেমের নাম্বার পার্ট অনুযায়ী সর্ট করো
এক্সেম্পল: report_01.pdf → report_02.pdf → report_10.pdf
(নোট করো এটা নাম্বার সর্ট, বর্ণানুক্রমিক সর্ট নয়, १० আসবে २ এর পরে)
२. মার্জ করার পর হ্যান্ডলিং:
- প্রতিটা পেজের নিচের রাইটে পেজ নাম্বার যোগ করো (ফরম্যাট: পেজ X / টোটাল Y)
- মার্জ করা PDF এর শুরুতে কন্টেন্টস পেজ জেনারেট করো
- কন্টেন্টসে প্রতিটা অরিজিনাল ফাইলের নাম ও স্টার্ট পেজ নম্বর থাকবে
३. আউটপুট:
- মার্জ করা PDF ফাইল
- একটা লগ ফাইল, মার্জ করা ফাইল, অর্ডার, প্রতিটা ফাইলের পেজ কাউন্ট রেকর্ড করে
এই ফিচারের জন্য Python স্ক্রিপ্ট দাও (PyPDF२ বা reportlab ব্যবহার করো)।
PDF প্রসেসিং: OpenClaw বনাম Adobe Acrobat
- ব্যাচ ইনফো এক্সট্র্যাকশন স্ট্রং পয়েন্ট — শত শত PDF একটা ইন্সট্রাকশনে প্রসেস করো।
- এক্সট্র্যাকশন রুলস সম্পূর্ণ কাস্টমাইজেবল, যেকোনো ফিল্ড এক্সট্র্যাক্ট করতে পারো।
- অটো স্ক্রিপ্ট জেনারেট করতে পারে, পরবার একই ধরনের টাস্কে ওয়ান-ক্লিক রিইউজ।
- OCR + ইনফো এক্সট্র্যাকশন + ফরম্যাট কনভার্শন ওয়ান-স্টপ।
- PDF এডিটিং পাওয়ার স্ট্রং — টেক্সট চেঞ্জ করতে, ইমেজ চেঞ্জ করতে, লেআউট চেঞ্জ করতে পারো।
- OCR রিকগনিশন অ্যাকুরেসি হাই, বিশেষত ইংলিশ ডকুমেন্ট।
- ব্যাচ ফিচার আছে কিন্তু অপারেট করা কমপ্লেক্স, Action Wizard শিখতে হয়।
- বার্ষিক সাবস্ক্রিপশন, দাম কম নয়; ইনফো এক্সট্র্যাকশন ক্ষমতা লিমিটেড।