প্রশিক্ষণের সময় মডেলের সাধারণীকরণ ত্রুটি অনুমান করার জন্য বিভিন্ন পদ্ধতি রয়েছে। আনুমানিক ত্রুটি মডেল পছন্দ করতে শেখার অ্যালগরিদম সমর্থন করে; অর্থাৎ, সঠিক জটিলতার একটি মডেল আবিষ্কার করা যা অতিরিক্ত ফিটিং দ্বারা প্রভাবিত হয় না।
যেহেতু মডেলটি তৈরি করা হয়েছে, এটি পূর্বের অদেখা ডেটার ক্লাস লেবেলগুলির পূর্বাভাস দিতে পরীক্ষা সেটে ব্যবহার করা যেতে পারে। পরীক্ষার সেটে মডেলের কর্মক্ষমতা পরিমাপ করা প্রায়শই দরকারী কারণ এই ধরনের পরিমাপ তার সাধারণীকরণ ত্রুটির একটি নিরপেক্ষ অনুমান প্রদান করে। পরীক্ষার সেট থেকে মূল্যায়ন করা নির্ভুলতা বা ত্রুটির হার সমান ডোমেনে একাধিক শ্রেণীবদ্ধকারীর সহযোগী কর্মক্ষমতা তুলনা করতে ব্যবহার করা যেতে পারে।
একটি শ্রেণিবিন্যাসকারীর কর্মক্ষমতা মূল্যায়ন করার জন্য সাধারণত বিভিন্ন পদ্ধতি ব্যবহার করা হয় যা নিম্নরূপ -
হোল্ডআউট পদ্ধতি − হোল্ডআউট পদ্ধতিতে, লেবেলযুক্ত দৃষ্টান্ত সহ প্রাথমিক রেকর্ডটিকে দুটি বিচ্ছিন্ন সেটে বিভক্ত করা হয়, যা প্রশিক্ষণ এবং পরীক্ষার সেট হিসাবে পরিচিত। একটি শ্রেণীবিভাগ মডেল প্রশিক্ষণ সেট থেকে প্ররোচিত হয় এবং এর বাস্তবায়ন পরীক্ষা সেটে গণনা করা হয়।
ক্লাসিফায়ারের দক্ষতা পরীক্ষা সেটে প্ররোচিত মডেলের দক্ষতার উপর নির্ভর করে গণনা করা যেতে পারে। হোল্ডআউট পদ্ধতির বিভিন্ন সুপরিচিত অসুবিধা রয়েছে। প্রথমত, কিছু লেবেল করা দৃষ্টান্ত প্রশিক্ষণের জন্য অ্যাক্সেসযোগ্য কারণ পরীক্ষার জন্য বেশ কিছু ডেটা আটকে রাখা হয়।
ফলস্বরূপ, প্ররোচিত মডেলটি ততটা সেরা হতে পারে না যখন কিছু লেবেলযুক্ত উদাহরণ প্রশিক্ষণের জন্য ব্যবহার করা হয়। দ্বিতীয়ত, মডেলটি প্রশিক্ষণ এবং পরীক্ষার সেটের কাঠামোর উপর ব্যাপকভাবে নির্ভরশীল হতে পারে।
অন্যদিকে, যদি প্রশিক্ষণ সেটটি খুব বড় হয়, তাহলে ছোট পরীক্ষা সেট থেকে গণনা করা আনুমানিক নির্ভুলতা Iess নির্ভরযোগ্য। তাই একটি অনুমান একটি বিস্তৃত আত্মবিশ্বাসের ব্যবধান আছে. অবশেষে, প্রশিক্ষণ এবং পরীক্ষার সেট একে অপরের থেকে আলাদা নয়।
এলোমেলো সাবস্যাম্পলিং − শ্রেণীবদ্ধকারীর বাস্তবায়নের গণনা উন্নত করতে হোল্ডআউট পদ্ধতিটি একাধিকবার পুনরাবৃত্তি করা যেতে পারে। এই পদ্ধতিটিকে র্যান্ডম সাবস্যাম্পলিং বলা হয়।
যাক acci i th সময় মডেল নির্ভুলতা হতে হবে পুনরাবৃত্তি সামগ্রিক নির্ভুলতা accsub দ্বারা দেওয়া হয় =$\mathrm{\displaystyle\sum\limits_{i=1}^k}$acci /k
র্যান্ডম সাবস্যাম্পলিং হোল্ডআউট পদ্ধতির সাথে সম্পর্কিত বেশ কয়েকটি সমস্যার সম্মুখীন হয় কারণ এটি প্রশিক্ষণের জন্য প্রযোজ্য যতটা ডেটা ব্যবহার করে না। পরীক্ষার এবং প্রশিক্ষণের জন্য প্রতিটি ডেটা ব্যবহার করা হয় তার উপরও এর কোন নিয়ন্ত্রণ নেই। তাই, কিছু ডেটা অন্যদের তুলনায় বেশি প্রশিক্ষণের জন্য ব্যবহার করা যেতে পারে।
ক্রস-ভ্যালিডেশন −:এলোমেলো সাবস্যাম্পিংয়ের একটি বিকল্প হল ক্রস-ভ্যালিডেশন। এই পদ্ধতিতে, প্রতিটি ডেটা প্রশিক্ষণের জন্য একাধিকবার এবং পরীক্ষার জন্য একবার সঠিকভাবে ব্যবহার করা হয়। বিবেচনা করুন যে এটি রেকর্ডটিকে দুটি সমান-আকারের উপসেটে ভাগ করতে পারে। প্রথমত, এটি প্রশিক্ষণের জন্য একটি উপসেট নির্বাচন করতে পারে এবং অন্যটি পরীক্ষার জন্য। এটি উপসেটের ভূমিকা পরিবর্তন করতে পারে যাতে পূর্বের প্রশিক্ষণ সেটটি পরীক্ষার সেটে পরিণত হয়। এই পদ্ধতিটি দ্বিগুণ ক্রস-ভ্যালিডেশন নামে পরিচিত।