পাইথন বিভিন্ন ধরনের অপারেশন পরিচালনার জন্য একটি বড় সেট লাইব্রেরি আছে. একটি PDF থেকে ডেটা এবং মেটা-তথ্য বের করতে, আমরা PyPdf2 প্যাকেজ ব্যবহার করি। এটি ব্যবহার করা সহজ এবং এতে অনেকগুলি বিভিন্ন অপারেশন বা টুলকিট রয়েছে যেমন PDF থেকে ডেটা বের করা, নথিতে কীওয়ার্ড অনুসন্ধান করা, হাইপারলিঙ্ক, URL এবং অন্যান্য তথ্য খোঁজার মতো মেটা তথ্য বের করা। PyPDF2 প্যাকেজ ব্যবহার করে, আমরা একটি পিডিএফ ডকুমেন্ট থেকে হাইপারলিঙ্ক বের করব।
আমরা একটি PDF থেকে হাইপারলিঙ্কগুলি বের করতে এই পদক্ষেপগুলি অনুসরণ করব,
-
স্থানীয় মেশিনে pip install PyPDF2 টাইপ করে PyPDF2 ইনস্টল করুন কমান্ড শেলে।
-
PyPDF2 আমদানি করুন৷
৷ -
ফাইলটি বাইনারী মোডে খুলুন এবং এটি ফাইলের URL এর প্যাটার্ন চিনতে পারে।
-
লিঙ্ক বের করতে একটি ফাংশন সংজ্ঞায়িত করুন একটি নির্দিষ্ট পৃষ্ঠার জন্য।
-
সমস্ত পৃষ্ঠায় পুনরাবৃত্তি করুন এবং extractText() ব্যবহার করে পাঠ্যটি বের করুন ফাংশন।
-
পিডিএফ থেকে হাইপারলিঙ্ক বের করতে আমরা সাধারণত পাইথনে প্যাটার্ন ম্যাচিং কনসেপ্ট ব্যবহার করি। এখন পুনরায় আমদানি করুন রেগুলার এক্সপ্রেশন ব্যবহার করে প্যাটার্ন খুঁজে পেতে।
-
Findall(regex, string) ব্যবহার করে https:// বা https:// এর সাথে মেলে এমন প্যাটার্ন খুঁজুন .
-
যদি কোনো ইউআরএল পাওয়া যায় তাহলে ইউআরএল ফিরিয়ে দিন এবং স্ক্রিনে প্রিন্ট করুন।
উদাহরণ
# Import necessary packages import PyPDF2 import re # Open The File in the Command file = open("newfile.pdf", 'rb') readPDF = PyPDF2.PdfFileReader(file) def find_url(string): #Find all the String that matches with the pattern regex = r"(https?://\S+)" url = re.findall(regex,string) for url in url: return url # Iterating over all the pages of File for page_no in range(readPDF.numPages): page=readPDF.getPage(page_no) #Extract the text from the page text = page.extractText() # Print all URL print(find_url(text)) # CLost the file file.close()
আউটপুট
উপরের কোডটি চালানোর ফলে প্রদত্ত পিডিএফ ডকুমেন্ট ফাইলে উপলব্ধ সমস্ত হাইপারলিঙ্ক প্রিন্ট হবে।