আপনি PDF কে পাঠ্যে রূপান্তর করতে PDFMiner প্যাকেজ ব্যবহার করতে পারেন৷
৷উদাহরণ
আপনি নিম্নলিখিত উপায়ে এটি ব্যবহার করতে পারেন:
import sys from cStringIO import StringIO from pdfminer.pdfpage importPDFPage from pdfminer.pdfinterp importPDFResourceManager, PDFPageInterpreter from pdfminer.layout importLAParams from pdfminer.converter importXMLConverter, HTMLConverter, TextConverter def pdfparser(data): fp = file(data, 'rb') resource_manager = PDFResourceManager() retstr = StringIO() codec = 'utf-8' laparams = LAParams() device = TextConverter(resource_manager,retstr, codec=codec, laparams=laparams) interpreter =PDFPageInterpreter(resource_manager, device) # Process each page contained in thedocument. for page in PDFPage.get_pages(fp): interpreter.process_page(page) data = retstr.getvalue() print data pdfparser('filename.pdf')
এটি একটি পিডিএফ ফাইল নেয় এবং PDFPageInterpreter ক্লাস থেকে process_page ফাংশন ব্যবহার করে পৃষ্ঠায় পৃষ্ঠা থেকে পাঠ্য বের করে।
টেক্সট এক্সট্রাক্ট করার জন্য ব্যবহার করার জন্য অনেক সহজ API সহ PDFMiner-এর বিকল্প রয়েছে। pyPDF সূক্ষ্ম কাজ করে (ধরে নিচ্ছে যে আপনি সুগঠিত PDF এর সাথে কাজ করছেন)। আপনি যদি কেবল পাঠ্যটি চান (স্পেস সহ), আপনি নিম্নলিখিতগুলি করতে পারেন:
import pyPdf pdf = pyPdf.PdfFileReader(open('filename.pdf',"rb")) for page in pdf.pages: print page.extractText()