Scikit-learn, সাধারণত sklearn নামে পরিচিত পাইথনের একটি লাইব্রেরি যা মেশিন লার্নিং অ্যালগরিদম বাস্তবায়নের উদ্দেশ্যে ব্যবহৃত হয়। এটি শক্তিশালী এবং মজবুত, যেহেতু এটি পরিসংখ্যানগত মডেলিং সম্পাদনের জন্য বিভিন্ন ধরণের সরঞ্জাম সরবরাহ করে৷
এর মধ্যে রয়েছে পাইথনে একটি শক্তিশালী, এবং স্থিতিশীল ইন্টারফেসের সাহায্যে শ্রেণিবিন্যাস, রিগ্রেশন, ক্লাস্টারিং, মাত্রা হ্রাস এবং আরও অনেক কিছু। Numpy, SciPy এবং Matplotlib লাইব্রেরিতে নির্মিত।
মেশিন লার্নিং অ্যালগরিদমে ইনপুট ডেটা পাস করার আগে, এটিকে প্রশিক্ষণ এবং পরীক্ষার ডেটাসেটে বিভক্ত করতে হবে।
একবার নির্বাচিত মডেলের সাথে ডেটা ফিট হয়ে গেলে, ইনপুট ডেটাসেট এই মডেলে প্রশিক্ষিত হয়। যখন প্রশিক্ষণ হয়, মডেল ডেটা থেকে শেখে৷
৷এটি নতুন ডেটাতে সাধারণীকরণ করতেও শেখে। মডেলের প্রশিক্ষণের সময় পরীক্ষার ডেটাসেট ব্যবহার করা হবে না।
একবার সমস্ত হাইপারপ্যারামিটার টিউন হয়ে গেলে, এবং সর্বোত্তম ওজন সেট করা হলে, পরীক্ষার ডেটাসেট মেশিন লার্নিং অ্যালগরিদমে প্রদান করা হয়।
এটি সেই ডেটাসেট যা অ্যালগরিদম নতুন ডেটাতে কতটা ভালোভাবে সাধারণীকরণ করে তা পরীক্ষা করতে ব্যবহৃত হয়। আসুন দেখি কিভাবে স্কিট-লার্ন লাইব্রেরি ব্যবহার করে ডেটা বিভক্ত করা যায়।
উদাহরণ
from sklearn.datasets import load_iris my_data = load_iris() X = my_data.data y = my_data.target from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split( X, y, test_size = 0.2, random_state = 2 ) print("The dimensions of the features of training data ") print(X_train.shape) print("The dimensions of the features of test data ") print(X_test.shape) print("The dimensions of the target values of training data ") print(y_train.shape) print("The dimensions of the target values of test data ") print(y_test.shape)
আউটপুট
The dimensions of the features of training data (120, 4) The dimensions of the features of test data (30, 4) The dimensions of the target values of training data (120,) The dimensions of the target values of test data (30,)
ব্যাখ্যা
- প্রয়োজনীয় প্যাকেজগুলি আমদানি করা হয়৷ ৷
- এর জন্য প্রয়োজনীয় ডেটাসেটও পরিবেশে লোড করা হয়৷ ৷
- বৈশিষ্ট্য এবং লক্ষ্য মানগুলি ডেটাসেট থেকে আলাদা করা হয়েছে৷ ৷
- প্রশিক্ষণ এবং পরীক্ষার ডেটা যথাক্রমে 80 শতাংশ এবং 20 শতাংশ অনুপাতে বিভক্ত করা হয়েছে৷
- এর মানে 20 শতাংশ ডেটা ব্যবহার করা হবে নতুন ডেটাতে মডেলটি কতটা ভালোভাবে সাধারণীকরণ করে তা পরীক্ষা করতে৷
- এই বিভাজনগুলি, ডেটার মাত্রা সহ কনসোলে প্রিন্ট করা হয়৷