পাইথন বিভিন্ন ধরনের অপারেশন পরিচালনার জন্য একটি বড় সেট লাইব্রেরি আছে. এই নিবন্ধটির মাধ্যমে, আমরা দেখব কিভাবে একটি পিডিএফ ফাইলকে এক্সেল ফাইলে রূপান্তর করা যায়। পিডিএফকে সিএসভিতে রূপান্তর করার জন্য পাইথনে বিভিন্ন প্যাকেজ উপলব্ধ রয়েছে তবে আমরা Tabula-py মডিউল ব্যবহার করব। tabula-py-এর প্রধান অংশ জাভাতে লেখা যা পিডিএফ ডকুমেন্ট পড়ে এবং পাইথন ডেটাফ্রেমকে JSON অবজেক্টে রূপান্তর করে।
tabula-py এর সাথে কাজ করার জন্য, আমাদের অবশ্যই আমাদের সিস্টেমে জাভা প্রিইন্সটল করা থাকতে হবে। এখন, pdf ফাইলটিকে csv-এ রূপান্তর করতে আমরা ধাপগুলি অনুসরণ করব-
-
প্রথমে, pip install tabula-py টাইপ করে প্রয়োজনীয় প্যাকেজটি ইনস্টল করুন কমান্ড শেলে।
-
এখন read_pdf("file location", pages=number) ব্যবহার করে ফাইলটি পড়ুন ফাংশন এটি ডেটাফ্রেম ফিরিয়ে দেবে।
-
tabula.convert_into(‘pdf-filename’, ‘name_this_file.csv’,output_format="csv", pages="all") ব্যবহার করে ডেটাফ্রেমকে একটি এক্সেল ফাইলে রূপান্তর করুন . এটি সাধারণত একটি এক্সেল ফাইলে পিডিএফ ফাইল রপ্তানি করে
উদাহরণ
এই উদাহরণে, আমরা IPL ম্যাচ শিডিউল ডকুমেন্ট ব্যবহার করেছি এটিকে একটি এক্সেল ফাইলে রূপান্তর করতে।
# Import the required Module
import tabula
# Read a PDF File
df = tabula.read_pdf("IPLmatch.pdf", pages='all')[0]
# convert PDF into CSV
tabula.convert_into("IPLmatch.pdf", "iplmatch.csv", output_format="csv", pages='all')
print(df) আউটপুট
উপরের কোডটি চালালে পিডিএফ ফাইলটিকে একটি এক্সেল (সিএসভি) ফাইলে রূপান্তর করা হবে।
