প্রাক-প্রসেসিং ডেটা বলতে বোঝায় ডেটা পরিষ্কার করা, অবৈধ ডেটা অপসারণ করা, শব্দ করা, প্রাসঙ্গিক মান দিয়ে ডেটা প্রতিস্থাপন করা ইত্যাদি। এটি সর্বদা পাঠ্য ডেটা বোঝায় না; এটি ছবি বা ভিডিও প্রসেসিংও হতে পারে৷
৷ডেটা প্রাক-প্রসেসিং মূলত সমস্ত ডেটা (যা বিভিন্ন সংস্থান বা একক সংস্থান থেকে সংগ্রহ করা হয়) একটি সাধারণ বিন্যাসে বা অভিন্ন ডেটাসেটে (ডেটার প্রকারের উপর নির্ভর করে) একত্রিত করার কাজকে বোঝায়। যেহেতু বাস্তব-বিশ্বের ডেটা কখনই আদর্শ নয়, সেহেতু ডেটাতে কোষ, ত্রুটি, আউটলিয়ার, কলামের অমিল এবং আরও অনেক কিছু অনুপস্থিত থাকার সম্ভাবনা রয়েছে৷
কখনও কখনও, চিত্রগুলি সঠিকভাবে সারিবদ্ধ নাও হতে পারে, বা স্পষ্ট নাও হতে পারে বা খুব বড় আকারের হতে পারে। প্রাক-প্রক্রিয়াকরণের লক্ষ্য হল এই অসঙ্গতি এবং ত্রুটিগুলি দূর করা।
আসুন একটি ইমেজ আপলোড করার এবং স্কিট-লার্ন লাইব্রেরি ব্যবহার করে কনসোলে দেখার উদাহরণ নেওয়া যাক -
উদাহরণ
from skimage import io path = "path to puppy.PNG" img = io.imread(path) print("Image being read") io.imshow(img) print("Image printed on console")
আউটপুট
ব্যাখ্যা
- প্রয়োজনীয় লাইব্রেরিগুলি আমদানি করা হয়৷ ৷
- ইমেজটি যেখানে সংরক্ষিত হয় সেই পথটি সংজ্ঞায়িত করা হয়েছে।
- 'imread' ফাংশনটি পথ পরিদর্শন করতে এবং চিত্রটি পড়তে ব্যবহৃত হয়।
- ইমেজ পড়ার পরে, পিক্সেল মানগুলি একটি অ্যারের আকারে সংরক্ষণ করা হয়৷
- এই অ্যারেটি একটি Numpy অ্যারে ছাড়া কিছুই নয়।
- ছবিটি পড়া হয় এবং একটি অ্যারেতে রূপান্তরিত হয়৷
- 'imshow' ফাংশনটি কনসোলে ছবি প্রদর্শন করতে ব্যবহৃত হয়।
- ডেটা কনসোলে প্রদর্শিত হয়।