প্রি-প্রসেসিং ডেটা বলতে বোঝায় ডেটা পরিষ্কার করা, অবৈধ ডেটা অপসারণ করা, শব্দ করা, প্রাসঙ্গিক মান দিয়ে ডেটা প্রতিস্থাপন করা ইত্যাদি।
এটি সর্বদা পাঠ্য ডেটা বোঝায় না; এটি ছবি বা ভিডিও প্রক্রিয়াকরণও হতে পারে। এটি মেশিন লার্নিং পাইপলাইনের একটি গুরুত্বপূর্ণ ধাপ।
ডেটা প্রাক-প্রসেসিং মূলত সমস্ত ডেটা (যা বিভিন্ন সংস্থান বা একক সংস্থান থেকে সংগ্রহ করা হয়) একটি সাধারণ বিন্যাসে বা অভিন্ন ডেটাসেটে (ডেটার প্রকারের উপর নির্ভর করে) একত্রিত করার কাজকে বোঝায়।
এটি করা হয়েছে যাতে শেখার অ্যালগরিদম এই ডেটাসেট থেকে শিখতে পারে এবং উচ্চ নির্ভুলতার সাথে প্রাসঙ্গিক ফলাফল দিতে পারে। যেহেতু বাস্তব-বিশ্বের ডেটা কখনই আদর্শ নয়, সেহেতু ডেটাতে কোষ, ত্রুটি, আউটলিয়ার, কলামের অমিল এবং আরও অনেক কিছু অনুপস্থিত থাকার সম্ভাবনা রয়েছে৷
কখনও কখনও, চিত্রগুলি সঠিকভাবে সারিবদ্ধ নাও হতে পারে, বা স্পষ্ট নাও হতে পারে বা খুব বড় আকারের হতে পারে। প্রাক-প্রক্রিয়াকরণের লক্ষ্য হল এই অসঙ্গতি এবং ত্রুটিগুলি দূর করা। ডেটা প্রাক-প্রসেসিং একটি একক কাজ নয়, কিন্তু কাজগুলির একটি সেট যা ধাপে ধাপে সম্পাদিত হয়।
এক ধাপের আউটপুট পরের ধাপে ইনপুট হয়ে যায় ইত্যাদি।
সংখ্যাসূচক মানগুলিকে বুলিয়ান মান −
-এ রূপান্তর করার উদাহরণ নেওয়া যাকউদাহরণ
sklearn import preprocessinginput_data =np.array([[34.78, 31.9, -65.5],[-16.5, 2.45, -83.5],[0.5, -87.98, 45.5.8, [0.5, -87.98, 45.62,]- 55.82]])data_binarized =preprocessing.Binarizer(threshold=0.5).transform(input_data)print("\Values converted Numeric থেকে Boolean :\n", data_binarized)আউটপুট
সংখ্যাসূচক থেকে বুলিয়ানে রূপান্তরিত মান:[[1. 1. 0।][0। 1. 0।][0। 0. 1. [1. 1. 0.]]
ব্যাখ্যা
- প্রয়োজনীয় প্যাকেজগুলি আমদানি করা হয়৷ ৷
- নম্পি লাইব্রেরি ব্যবহার করে ইনপুট ডেটা তৈরি করা হয়।
- স্কলারনের 'প্রিপ্রসেসিং' ক্লাসে উপস্থিত 'বাইনারাইজার' ফাংশনটি সংখ্যাসূচক মানগুলিকে বুলিয়ান মানগুলিতে রূপান্তর করতে ব্যবহৃত হয়৷
- বুলিয়ান মান মূলত 1 এবং 0 কে বোঝায়।
- এই রূপান্তরিত ডেটা কনসোলে প্রিন্ট করা হয়।