টেনফোল্ড ক্রস-ভ্যালিডেশন হল একটি নির্দিষ্ট ডেটাসেটে শেখার স্কিমের ত্রুটির হার পরিমাপ করার আদর্শ উপায়; নির্ভরযোগ্য ফলাফলের জন্য, 10 গুণ দশগুণ ক্রস-বৈধকরণ। দুটি পদ্ধতি আছে লিভ-ওয়ান-আউট ক্রস-ভ্যালিডেশন এবং বুটস্ট্র্যাপ।
লিভ-ওয়ান-আউট ক্রস-ভ্যালিডেশন
লিভ-ওয়ান-আউট ক্রস-ভ্যালিডেশন হল ওপেনলি n-ফোল্ড ক্রস-ভ্যালিডেশন, যেখানে n হল ডেটাসেটের একাধিক উদাহরণ। পালাক্রমে প্রতিটি দৃষ্টান্ত বাদ দেওয়া হয়, এবং শেখার স্কিমটি অবশিষ্ট সমস্ত দৃষ্টান্তে প্রশিক্ষিত হয়। এটি অবশিষ্ট উদাহরণের সঠিকতার দ্বারা গণনা করা হয় - সেই অনুযায়ী সাফল্য বা ব্যর্থতার জন্য এক বা শূন্য। সমস্ত n বিচারের ফলাফল, ডেটাসেটের প্রতিটি গোষ্ঠীর জন্য একটি, গড় করা হয় এবং সেই গড় শেষ ত্রুটির অনুমানকে সংজ্ঞায়িত করে৷
এই প্রক্রিয়াটি দুটি কারণে একটি আকর্ষণীয়। প্রথমত, প্রতিটি ক্ষেত্রে প্রশিক্ষণের জন্য সর্বোচ্চ সম্ভাব্য পরিমাণ রেকর্ড ব্যবহার করা যেতে পারে, যা সম্ভবত শ্রেণীবদ্ধকারীর একটি খাঁটি হওয়ার সম্ভাবনাকে উন্নত করে।
দ্বিতীয়ত, পদ্ধতিটি নির্ধারক − কোন এলোমেলো নমুনা জড়িত নয়। এটি 10 বার পুনরাবৃত্তি করার কোন অর্থ নেই, বা এটি মোটেও পুনরাবৃত্তি করে। প্রতিবার একই ফলাফল পাওয়া যাবে। এর বিপরীতে সেট করা হল উচ্চ গণনামূলক খরচ কারণ পুরো শিক্ষার পর্বটি n বার চালানো উচিত এবং এটি সাধারণত উচ্চ ডেটাসেটের জন্য অসম্ভাব্য৷
বুটস্ট্র্যাপ
দ্বিতীয় অনুমান পদ্ধতিটি আমরা বর্ণনা করি, বুটস্ট্র্যাপ, প্রতিস্থাপনের সাথে নমুনা নেওয়ার পরিসংখ্যানগত পদ্ধতির উপর ভিত্তি করে। পূর্বে, যখনই একটি প্রশিক্ষণ বা পরীক্ষার সেট তৈরি করার জন্য ডেটাসেট থেকে একটি নমুনা নেওয়া হয়েছিল, এটি প্রতিস্থাপন ছাড়াই আঁকা হয়েছিল৷
বেশিরভাগ শেখার স্কিম একই দৃষ্টান্ত দুবার ব্যবহার করতে পারে, এবং এটি শেখার ফলাফলে পার্থক্য করে যদি এটি প্রশিক্ষণ সেটে দুইবার উপস্থিত থাকে। বুটস্ট্র্যাপের ধারণা হল একটি প্রশিক্ষণ সেট তৈরি করার জন্য প্রতিস্থাপন সহ ডেটাসেটের নমুনা। আমরা একটি নির্দিষ্ট বৈকল্পিক বর্ণনা করব, রহস্যজনকভাবে (কিন্তু একটি কারণ যা শীঘ্রই স্পষ্ট হয়ে উঠবে) যাকে 0.632 বুটস্ট্র্যাপ বলা হয়।
এর জন্য, n দৃষ্টান্তগুলির একটি ডেটাসেট n বার নমুনা করা হয়, পুনরুদ্ধার সহ, n দৃষ্টান্তগুলির একটি ভিন্ন ডেটাসেট প্রদান করতে। যেহেতু এই দ্বিতীয় ডেটাসেটের কিছু উপাদান (প্রায় নিশ্চিতভাবে) পুনরাবৃত্তি করা হবে, তাই মূল ডেটাসেটে এমন কিছু দৃষ্টান্ত থাকতে হবে যা বাছাই করা হয়নি—আমরা এগুলিকে পরীক্ষার উদাহরণ হিসাবে ব্যবহার করব।
প্রশিক্ষণ সেটে একটি শিক্ষা ব্যবস্থাকে প্রশিক্ষণ দিয়ে এবং পরীক্ষার সেটের উপর তার ত্রুটি গণনা করার মাধ্যমে প্রাপ্ত চিত্রটি প্রকৃত ত্রুটির হারের একটি হতাশাবাদী অনুমান হবে কারণ প্রশিক্ষণ সেট, যদিও এর আকার n, তথাপি শুধুমাত্র 63% উদাহরণ রয়েছে, যেটি তুলনামূলক বড় কিছু নয়, উদাহরণস্বরূপ, 90% দশগুণ ক্রস-ভ্যালিডেশনে ব্যবহৃত হয়।