ডেটা প্রাক-প্রসেসিং মূলত সমস্ত ডেটা (যা বিভিন্ন সংস্থান বা একক সংস্থান থেকে সংগ্রহ করা হয়) একটি সাধারণ বিন্যাসে বা অভিন্ন ডেটাসেটে (ডেটার প্রকারের উপর নির্ভর করে) একত্রিত করার কাজকে বোঝায়।
যেহেতু বাস্তব-বিশ্বের ডেটা কখনই আদর্শ নয়, সেহেতু ডেটাতে কোষ, ত্রুটি, আউটলিয়ার, কলামের অমিল এবং আরও অনেক কিছু অনুপস্থিত থাকার সম্ভাবনা রয়েছে৷
কখনও কখনও, চিত্রগুলি সঠিকভাবে সারিবদ্ধ নাও হতে পারে, বা স্পষ্ট নাও হতে পারে বা খুব বড় আকারের হতে পারে। প্রাক-প্রক্রিয়াকরণের লক্ষ্য হল এই অসঙ্গতি এবং ত্রুটিগুলি দূর করা।
একটি ছবির পিক্সেল পেতে, 'ফ্ল্যাটেন' নামে একটি অন্তর্নির্মিত ফাংশন ব্যবহার করা হয়। চিত্রটি পড়ার পরে, পিক্সেল মানগুলি একটি ডেটাফ্রেমের আকারে সংরক্ষণ করা হয়। 'ফ্ল্যাটেন' ফাংশনটি একটি RGB চিত্রের তিনটি মাত্রাকে একটি একক মাত্রায় রূপান্তর করতে এবং পিক্সেলের মান একটি ডেটাফ্রেমে পেতে ব্যবহার করা হয়৷
সম্পূর্ণ ডাটাফ্রেম প্রিন্ট করার পরিবর্তে, ডাটাফ্রেমের মাত্রা প্রিন্ট করা হয়। আসুন একটি ইমেজ আপলোড করার এবং স্কিট-লার্ন লাইব্রেরি ব্যবহার করে ডেটাফ্রেম হিসাবে ছবিতে উপস্থিত পিক্সেলগুলি পাওয়ার উদাহরণ নেওয়া যাক -
উদাহরণ
from skimage import io import pandas as pd path = "path to puppy.PNG" img = io.imread(path) print("Image being read") io.imshow(img) print("Image printed on console") my_df = pd.DataFrame(img.flatten()) print("The image pixels dimensions are ") print(my_df.shape)
আউটপুট
Image being read Image printed on console The image pixels dimensions are (886104, 1)
ব্যাখ্যা
-
প্রয়োজনীয় লাইব্রেরিগুলি আমদানি করা হয়৷
৷ -
যে পথটি চিত্রটি সংরক্ষণ করা হয়েছে তা সংজ্ঞায়িত করা হয়েছে৷
৷ -
'imread' ফাংশনটি পথ পরিদর্শন করতে এবং চিত্রটি পড়তে ব্যবহৃত হয়।
-
'imshow' ফাংশনটি কনসোলে ছবি প্রদর্শন করতে ব্যবহৃত হয়।
-
'ফ্ল্যাটেন' ফাংশনটি একটি RGB চিত্রের তিনটি মাত্রাকে একটি একক মাত্রায় রূপান্তর করতে এবং পিক্সেলের মান একটি ডেটাফ্রেমে পেতে ব্যবহার করা হয়৷
-
অনেক বেশি সারি আছে এমন ডেটাফ্রেমটি প্রিন্ট করার পরিবর্তে, ডেটাফ্রেমের মাত্রাগুলি প্রদর্শিত হয়৷
-
ডেটাফ্রেমটি ‘print(my_df)’ ব্যবহার করে দেখা যেতে পারে .
-
আউটপুট হল একটি ডেটাফ্রেম যার ছবি পিক্সেল মান কনসোলে প্রিন্ট করা হয়।