পাইথন বিভিন্ন ধরনের অপারেশন পরিচালনার জন্য একটি বড় সেট লাইব্রেরি আছে. এই নিবন্ধটির মাধ্যমে, আমরা দেখব কিভাবে একটি পিডিএফ ফাইলকে এক্সেল ফাইলে রূপান্তর করা যায়। পিডিএফকে সিএসভিতে রূপান্তর করার জন্য পাইথনে বিভিন্ন প্যাকেজ উপলব্ধ রয়েছে তবে আমরা Tabula-py মডিউল ব্যবহার করব। tabula-py-এর প্রধান অংশ জাভাতে লেখা যা পিডিএফ ডকুমেন্ট পড়ে এবং পাইথন ডেটাফ্রেমকে JSON অবজেক্টে রূপান্তর করে।
tabula-py এর সাথে কাজ করার জন্য, আমাদের অবশ্যই আমাদের সিস্টেমে জাভা প্রিইন্সটল করা থাকতে হবে। এখন, pdf ফাইলটিকে csv-এ রূপান্তর করতে আমরা ধাপগুলি অনুসরণ করব-
-
প্রথমে, pip install tabula-py টাইপ করে প্রয়োজনীয় প্যাকেজটি ইনস্টল করুন কমান্ড শেলে।
-
এখন read_pdf("file location", pages=number) ব্যবহার করে ফাইলটি পড়ুন ফাংশন এটি ডেটাফ্রেম ফিরিয়ে দেবে।
-
tabula.convert_into(‘pdf-filename’, ‘name_this_file.csv’,output_format="csv", pages="all") ব্যবহার করে ডেটাফ্রেমকে একটি এক্সেল ফাইলে রূপান্তর করুন . এটি সাধারণত একটি এক্সেল ফাইলে পিডিএফ ফাইল রপ্তানি করে
উদাহরণ
এই উদাহরণে, আমরা IPL ম্যাচ শিডিউল ডকুমেন্ট ব্যবহার করেছি এটিকে একটি এক্সেল ফাইলে রূপান্তর করতে।
# Import the required Module import tabula # Read a PDF File df = tabula.read_pdf("IPLmatch.pdf", pages='all')[0] # convert PDF into CSV tabula.convert_into("IPLmatch.pdf", "iplmatch.csv", output_format="csv", pages='all') print(df)
আউটপুট
উপরের কোডটি চালালে পিডিএফ ফাইলটিকে একটি এক্সেল (সিএসভি) ফাইলে রূপান্তর করা হবে।