কম্পিউটার

পিডিএফকে পাঠ্যে রূপান্তর করার জন্য পাইথনে উপলব্ধ মডিউলগুলি কী কী?


আপনি PDF কে পাঠ্যে রূপান্তর করতে PDFMiner প্যাকেজ ব্যবহার করতে পারেন৷

উদাহরণ

আপনি নিম্নলিখিত উপায়ে এটি ব্যবহার করতে পারেন:

 import sys
from cStringIO import StringIO
 from pdfminer.pdfpage importPDFPage
from pdfminer.pdfinterp importPDFResourceManager, PDFPageInterpreter
from pdfminer.layout importLAParams
from pdfminer.converter importXMLConverter, HTMLConverter, TextConverter
 def pdfparser(data):
    fp = file(data, 'rb')
    resource_manager = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(resource_manager,retstr, codec=codec, laparams=laparams)
    interpreter =PDFPageInterpreter(resource_manager, device)
 
    # Process each page contained in thedocument.
    for page in PDFPage.get_pages(fp):
        interpreter.process_page(page)
        data = retstr.getvalue()
    print data
 pdfparser('filename.pdf')

এটি একটি পিডিএফ ফাইল নেয় এবং PDFPageInterpreter ক্লাস থেকে process_page ফাংশন ব্যবহার করে পৃষ্ঠায় পৃষ্ঠা থেকে পাঠ্য বের করে।

টেক্সট এক্সট্রাক্ট করার জন্য ব্যবহার করার জন্য অনেক সহজ API সহ PDFMiner-এর বিকল্প রয়েছে। pyPDF সূক্ষ্ম কাজ করে (ধরে নিচ্ছে যে আপনি সুগঠিত PDF এর সাথে কাজ করছেন)। আপনি যদি কেবল পাঠ্যটি চান (স্পেস সহ), আপনি নিম্নলিখিতগুলি করতে পারেন:

import pyPdf
pdf = pyPdf.PdfFileReader(open('filename.pdf',"rb"))
for page in pdf.pages:
    print page.extractText()

  1. টেক্সট মাইনিংয়ের কৌশলগুলি কী কী?

  2. টেক্সট মাইনিং এর অ্যাপ্লিকেশন কি কি?

  3. DES এর বৈচিত্র কি?

  4. পাইথন ভেরিয়েবলের জন্য মৌলিক স্কোপিং নিয়ম কি কি?