ব্যাখ্যা করুন কিভাবে স্কিট-লার্ন লাইব্রেরি পাইথনে প্রশিক্ষণ ও পরীক্ষার উদ্দেশ্যে ডেটাসেট বিভক্ত করতে ব্যবহার করা যেতে পারে?

Scikit-learn, সাধারণত sklearn নামে পরিচিত পাইথনের একটি লাইব্রেরি যা মেশিন লার্নিং অ্যালগরিদম বাস্তবায়নের উদ্দেশ্যে ব্যবহৃত হয়। এটি শক্তিশালী এবং মজবুত, যেহেতু এটি পরিসংখ্যানগত মডেলিং সম্পাদনের জন্য বিভিন্ন ধরণের সরঞ্জাম সরবরাহ করে৷

এর মধ্যে রয়েছে পাইথনে একটি শক্তিশালী, এবং স্থিতিশীল ইন্টারফেসের সাহায্যে শ্রেণিবিন্যাস, রিগ্রেশন, ক্লাস্টারিং, মাত্রা হ্রাস এবং আরও অনেক কিছু। Numpy, SciPy এবং Matplotlib লাইব্রেরিতে নির্মিত।

মেশিন লার্নিং অ্যালগরিদমে ইনপুট ডেটা পাস করার আগে, এটিকে প্রশিক্ষণ এবং পরীক্ষার ডেটাসেটে বিভক্ত করতে হবে।

একবার নির্বাচিত মডেলের সাথে ডেটা ফিট হয়ে গেলে, ইনপুট ডেটাসেট এই মডেলে প্রশিক্ষিত হয়। যখন প্রশিক্ষণ হয়, মডেল ডেটা থেকে শেখে৷

৷

এটি নতুন ডেটাতে সাধারণীকরণ করতেও শেখে। মডেলের প্রশিক্ষণের সময় পরীক্ষার ডেটাসেট ব্যবহার করা হবে না।

একবার সমস্ত হাইপারপ্যারামিটার টিউন হয়ে গেলে, এবং সর্বোত্তম ওজন সেট করা হলে, পরীক্ষার ডেটাসেট মেশিন লার্নিং অ্যালগরিদমে প্রদান করা হয়।

এটি সেই ডেটাসেট যা অ্যালগরিদম নতুন ডেটাতে কতটা ভালোভাবে সাধারণীকরণ করে তা পরীক্ষা করতে ব্যবহৃত হয়। আসুন দেখি কিভাবে স্কিট-লার্ন লাইব্রেরি ব্যবহার করে ডেটা বিভক্ত করা যায়।

উদাহরণ

from sklearn.datasets import load_iris
my_data = load_iris()
X = my_data.data
y = my_data.target
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(
X, y, test_size = 0.2, random_state = 2
)
print("The dimensions of the features of training data ")
print(X_train.shape)
print("The dimensions of the features of test data ")
print(X_test.shape)
print("The dimensions of the target values of training data ")
print(y_train.shape)
print("The dimensions of the target values of test data ")
print(y_test.shape)

আউটপুট

The dimensions of the features of training data
(120, 4)
The dimensions of the features of test data
(30, 4)
The dimensions of the target values of training data
(120,)
The dimensions of the target values of test data
(30,)

ব্যাখ্যা

প্রয়োজনীয় প্যাকেজগুলি আমদানি করা হয়৷
এর জন্য প্রয়োজনীয় ডেটাসেটও পরিবেশে লোড করা হয়৷
বৈশিষ্ট্য এবং লক্ষ্য মানগুলি ডেটাসেট থেকে আলাদা করা হয়েছে৷
প্রশিক্ষণ এবং পরীক্ষার ডেটা যথাক্রমে 80 শতাংশ এবং 20 শতাংশ অনুপাতে বিভক্ত করা হয়েছে৷
এর মানে 20 শতাংশ ডেটা ব্যবহার করা হবে নতুন ডেটাতে মডেলটি কতটা ভালোভাবে সাধারণীকরণ করে তা পরীক্ষা করতে৷
এই বিভাজনগুলি, ডেটার মাত্রা সহ কনসোলে প্রিন্ট করা হয়৷