PDF बड़े पैमाने पर प्रोसेसिंग
कॉन्ट्रैक्ट, रिपोर्ट, इनवॉयस — सैकड़ों PDFs एक कमांड से तैयार हो जाएंगे
PDF का सपना
बॉस कहते हैं "इन 200 कॉन्ट्रैक्ट्स से साइन का डेट और अमाउंट निकालकर एक टेबल में डालो"। आप पहली फाइल खोलते हो, डेट ढूंढते हो, कॉपी करते हो, एक्सल में स्विच करते हो, पेस्ट करते हो। दूसरी फाइल खोलते हो ... पूरे दिन बाद सिर्फ 40 खत्म हो पाते हैं, अभी 160 बाकी हैं। आप खुद को लेकर शक करने लगते हो।
PDF में टेबल्स और भी बुरा होते हैं। देखने में तो अच्छी लगती हैं, पर कॉपी करते ही सब गड़बड़ा जाता है। कॉलम्स गलत जगह आते हैं, नंबर और शब्द मिल जाते हैं, फॉर्मेटिंग पूरी तरह गायब हो जाती है। फॉर्मेट ठीक करने में मैनुअली टाइप करने से ज्यादा समय लग जाता है।
और फिर स्कैन किए गए दस्तावेज़। ग्राहक ढेर सारे स्कैन किए गए PDF इनवॉयस भेजते हैं, इनमें टेक्स्ट को सिलेक्ट ही नहीं कर सकते, सर्च करना तो दूर की बात है। आप स्क्रीन की ओर देखते हुए हर नंबर को मैनुअली टाइप करते हो। पूरा होने के बाद पता चलता है कि तीसरे इनवॉयस की अमाउंट गलत टाइप कर दी है, फिर से चेक करने की जरूरत है।
OpenClaw आपको PDF की तीन मुख्य परेशानियां सुलझाने में मदद कर सकता है:
1. बड़े पैमाने पर जानकारी एक्सट्रैक्ट करना — इसे बताओ "इन कॉन्ट्रैक्ट्स से डेट, अमाउंट, पार्टी नाम निकाल दो", सैकड़ों PDFs अपने आप से स्कैन हो जाएंगे, नतीजे सीधे टेबल में आ जाएंगे।
2. टेबल रिकग्निशन — PDF में टेबल को रिकॉग्नाइज़ करके एक्सेल में बदल दो, कॉलम्स सीधे रहेंगे, नंबर नंबर के लिए, शब्द शब्द के लिए, आपको मैनुअली फॉर्मेट ठीक करने की कोई जरूरत नहीं।
3. OCR रिकग्निशन — स्कैन किए गए दस्तावेज़ भी संभाल सकता है। टेक्स्ट रिकॉग्नाइज़ करने के बाद, सर्च कर सकते हो, एक्सट्रैक्ट कर सकते हो, ट्रांसलेट कर सकते हो।
200 कॉन्ट्रैक्ट्स की जानकारी निकालना? पहले तीन दिन लगते थे, अब एक कमांड, कॉफी पीने का समय मिल जाएगा तो तैयार हो जाएगा।
3 PDF प्रोसेसिंग Prompts, कॉपी करके सीधे यूज़ कर सकते हो
जानकारी निकालना, OCR बदलना, बड़े पैमाने पर मर्ज करना — सब सामान्य PDF ऑपरेशंस कवर हैं।
इस फोल्डर में 50 कॉन्ट्रैक्ट PDFs की यह जानकारी निकाल दो:
निकालने के लिए जरूरी फील्ड्स:
1. कॉन्ट्रैक्ट नंबर
2. साइन का डेट
3. कॉन्ट्रैक्ट अमाउंट (करेंसी सहित)
4. पार्टी A का नाम
5. पार्टी B का नाम
6. कॉन्ट्रैक्ट की अवधि (शुरुआत और खत्म होने की तारीख)
7. पेमेंट कंडीशन्स (अगर है)
आउटपुट फॉर्मेट:
- एक टेबल बनाओ, हर कॉन्ट्रैक्ट एक लाइन
- अगर कोई फील्ड कॉन्ट्रैक्ट में नहीं मिले तो "नहीं मिला" मार्क करो
- आखिर में स्टेट्स: कुल कॉन्ट्रैक्ट्स, कुल अमाउंट, सबसे पहला/आखिरी साइन डेट
ध्यान दो: कुछ कॉन्ट्रैक्ट्स स्कैन किए गए (इमेज) PDFs हैं, OCR के बाद निकालने की जरूरत है।
इस स्कैन किए गए PDF टेबल को रिकॉग्नाइज़ करके एक्सेल में बदल दो।
जरूरतें:
1. OCR से टेबल के सभी टेक्स्ट और नंबर्स को रिकॉग्नाइज़ करो
2. असली टेबल की पंक्तियों और स्तंभों की स्ट्रक्चर रखो
3. नंबर के कॉलम्स को नंबर फॉर्मेट में रिकॉग्नाइज़ करो (टेक्स्ट में नहीं)
4. डेट के कॉलम्स को YYYY-MM-DD फॉर्मेट में स्टैंडर्डाइज़ करो
5. अगर मर्ज किए गए सेल्स हों तो ओरिजिनल जैसे रखो
6. जहां रिकग्निशन अनिश्चित हो [?] से मार्क करो
PDF फाइल: [फाइल अपलोड करो]
आउटपुट: एक्सेल फॉर्मेट, पहली लाइन हेडर होगी।
इन PDF फाइल्स को बड़े पैमाने पर मर्ज करो, इन बातों का ध्यान रखते हुए:
1. सॉर्ट करने का नियम: फाइल नाम के नंबर पार्ट के अनुसार आरोही क्रम में
उदाहरण: report_01.pdf → report_02.pdf → report_10.pdf
(ध्यान दो कि नंबर के अनुसार सॉर्ट होना है, शब्दों के नहीं, 10 को 2 के बाद आना चाहिए)
2. मर्ज के बाद:
- हर पेज के दाएं निचले कोने में पेज नंबर जोड़ दो (फॉर्मेट: पेज X / कुल Y पेज)
- मर्ज किए गए PDF की शुरुआत में कंटेंट्स का पेज बना दो
- कंटेंट्स में हर ओरिजिनल फाइल का नाम और शुरुआत पेज नंबर दिखा दो
3. आउटपुट:
- मर्ज किया गया PDF फाइल
- एक लॉग फाइल, जो दिखाए कि कौन-कौन सी फाइल्स मर्ज की गई, क्या क्रम था, हर फाइल के कितने पेज थे
इस फंक्शनलिटी को करने के लिए Python स्क्रिप्ट दे दो (PyPDF2 या reportlab का यूज़ करते हुए)।
PDF प्रोसेसिंग: OpenClaw बनाम Adobe Acrobat
- बड़े पैमाने पर जानकारी निकालना ताकत है — सैकड़ों PDFs एक कमांड से
- निकालने का नियम पूरी तरह कस्टमाइजेबल है, कोई भी फील्ड निकाल सकते हो
- ऑटोमेटिक स्क्रिप्ट जेनरेट कर सकता है, अगली बार एक ही तरह के काम के लिए एक क्लिक से चल जाएगी
- OCR + जानकारी निकालना + फॉर्मेट बदलना सब एक साथ
- PDF एडिटिंग बहुत शक्तिशाली — शब्द, इमेज, लेआउट सब बदल सकते हो
- OCR रिकग्निशन एक्यूरेसी बहुत अच्छी है, खास करके अंग्रेजी दस्तावेज़ों के लिए
- बड़े पैमाने पर प्रोसेसिंग है पर ऑपरेशन जटिल है, Action Wizard सीखना पड़ता है
- साल-दर-साल सब्सक्रिप्शन, कीमत महंगी है; जानकारी निकालने की क्षमता सीमित है