কম্পিউটার

পাইথনে পিডিএফ থেকে হাইপারলিঙ্কগুলি বের করুন


পাইথন বিভিন্ন ধরনের অপারেশন পরিচালনার জন্য একটি বড় সেট লাইব্রেরি আছে. একটি PDF থেকে ডেটা এবং মেটা-তথ্য বের করতে, আমরা PyPdf2 প্যাকেজ ব্যবহার করি। এটি ব্যবহার করা সহজ এবং এতে অনেকগুলি বিভিন্ন অপারেশন বা টুলকিট রয়েছে যেমন PDF থেকে ডেটা বের করা, নথিতে কীওয়ার্ড অনুসন্ধান করা, হাইপারলিঙ্ক, URL এবং অন্যান্য তথ্য খোঁজার মতো মেটা তথ্য বের করা। PyPDF2 প্যাকেজ ব্যবহার করে, আমরা একটি পিডিএফ ডকুমেন্ট থেকে হাইপারলিঙ্ক বের করব।

আমরা একটি PDF থেকে হাইপারলিঙ্কগুলি বের করতে এই পদক্ষেপগুলি অনুসরণ করব,

  • স্থানীয় মেশিনে pip install PyPDF2 টাইপ করে PyPDF2 ইনস্টল করুন কমান্ড শেলে।

  • PyPDF2 আমদানি করুন৷

  • ফাইলটি বাইনারী মোডে খুলুন এবং এটি ফাইলের URL এর প্যাটার্ন চিনতে পারে।

  • লিঙ্ক বের করতে একটি ফাংশন সংজ্ঞায়িত করুন একটি নির্দিষ্ট পৃষ্ঠার জন্য।

  • সমস্ত পৃষ্ঠায় পুনরাবৃত্তি করুন এবং extractText() ব্যবহার করে পাঠ্যটি বের করুন ফাংশন।

  • পিডিএফ থেকে হাইপারলিঙ্ক বের করতে আমরা সাধারণত পাইথনে প্যাটার্ন ম্যাচিং কনসেপ্ট ব্যবহার করি। এখন পুনরায় আমদানি করুন রেগুলার এক্সপ্রেশন ব্যবহার করে প্যাটার্ন খুঁজে পেতে।

  • Findall(regex, string) ব্যবহার করে https:// বা https:// এর সাথে মেলে এমন প্যাটার্ন খুঁজুন .

  • যদি কোনো ইউআরএল পাওয়া যায় তাহলে ইউআরএল ফিরিয়ে দিন এবং স্ক্রিনে প্রিন্ট করুন।

উদাহরণ

# Import necessary packages
import PyPDF2
import re
# Open The File in the Command
file = open("newfile.pdf", 'rb')
readPDF = PyPDF2.PdfFileReader(file)
def find_url(string):
   #Find all the String that matches with the pattern
   regex = r"(https?://\S+)"
   url = re.findall(regex,string)
   for url in url:
      return url
# Iterating over all the pages of File
for page_no in range(readPDF.numPages):
   page=readPDF.getPage(page_no)
   #Extract the text from the page
   text = page.extractText()
   # Print all URL
   print(find_url(text))
# CLost the file
file.close()

আউটপুট

উপরের কোডটি চালানোর ফলে প্রদত্ত পিডিএফ ডকুমেন্ট ফাইলে উপলব্ধ সমস্ত হাইপারলিঙ্ক প্রিন্ট হবে।

পাইথনে পিডিএফ থেকে হাইপারলিঙ্কগুলি বের করুন


  1. পাইথনে তালিকাভুক্ত করতে csv ফাইলের নির্দিষ্ট কলামগুলি বের করুন

  2. Python Tkinter-এর জন্য PDF ভিউয়ার

  3. পাইথন ব্যবহার করে পিডিএফকে সিএসভিতে রূপান্তর করুন

  4. কিভাবে পাইথনে একটি স্ট্রিং থেকে তারিখ বের করতে হয়?