পাইথন প্যাকেজের বিশাল লাইব্রেরির জন্য সুপরিচিত। লাইব্রেরির সাহায্যে, আমরা দেখব কীভাবে একটি পিডিএফকে একটি CSV ফাইলে রূপান্তর করা যায়। একটি CSV ফাইল সারি এবং কলামের একটি সেট সহ ফ্রেম করা ডেটার সংগ্রহ ছাড়া কিছুই নয়। পিডিএফকে CSV-তে রূপান্তর করার জন্য পাইথন লাইব্রেরিতে বিভিন্ন প্যাকেজ উপলব্ধ রয়েছে, তবে আমরা Tabula-py মডিউল ব্যবহার করব . tabula-py-এর প্রধান অংশ জাভাতে লেখা যা প্রথমে PDF ডকুমেন্ট পড়ে এবং Python DataFrame কে JSON অবজেক্টে রূপান্তর করে।
tabula-py-এর সাথে কাজ করার জন্য, আমাদের অবশ্যই আমাদের সিস্টেমে জাভা আগে থেকে ইনস্টল করা থাকতে হবে। পিডিএফ ফাইলটিকে CSV-তে রূপান্তর করতে, আমরা এই পদক্ষেপগুলি অনুসরণ করব -
-
প্রথমে, pip install tabula-py টাইপ করে প্রয়োজনীয় প্যাকেজটি ইনস্টল করুন কমান্ড শেলে।
-
এখন, read_pdf("file location", pages=number) ব্যবহার করে ফাইলটি পড়ুন ফাংশন এটি ডেটাফ্রেম ফিরিয়ে দেবে।
-
tabula.convert_into(‘pdf-filename’, ‘name_this_file.csv’,output_format="csv", pages="all") ব্যবহার করে ডেটাফ্রেমকে একটি এক্সেল ফাইলে রূপান্তর করুন . এটি সাধারণত একটি এক্সেল ফাইলে পিডিএফ ফাইল রপ্তানি করে।
উদাহরণ
এই উদাহরণে, আমরা IPL ম্যাচ শিডিউল ডকুমেন্ট ব্যবহার করেছি এটিকে একটি এক্সেল ফাইলে রূপান্তর করতে।
# Import the required Module import tabula # Read a PDF File df = tabula.read_pdf("IPLmatch.pdf", pages='all')[0] # convert PDF into CSV tabula.convert_into("IPLmatch.pdf", "iplmatch.csv", output_format="csv", pages='all') print(df)
আউটপুট
উপরের কোডটি চালানো হলে পিডিএফ ফাইলটিকে এক্সেল (CSV) ফাইলে রূপান্তর করা হবে।