কম্পিউটার

ডেটা মাইনিং এ অনুমান পদ্ধতি কি কি?


টেনফোল্ড ক্রস-ভ্যালিডেশন হল একটি নির্দিষ্ট ডেটাসেটে শেখার স্কিমের ত্রুটির হার পরিমাপ করার আদর্শ উপায়; নির্ভরযোগ্য ফলাফলের জন্য, 10 গুণ দশগুণ ক্রস-বৈধকরণ। দুটি পদ্ধতি আছে লিভ-ওয়ান-আউট ক্রস-ভ্যালিডেশন এবং বুটস্ট্র্যাপ।

লিভ-ওয়ান-আউট ক্রস-ভ্যালিডেশন

লিভ-ওয়ান-আউট ক্রস-ভ্যালিডেশন হল ওপেনলি n-ফোল্ড ক্রস-ভ্যালিডেশন, যেখানে n হল ডেটাসেটের একাধিক উদাহরণ। পালাক্রমে প্রতিটি দৃষ্টান্ত বাদ দেওয়া হয়, এবং শেখার স্কিমটি অবশিষ্ট সমস্ত দৃষ্টান্তে প্রশিক্ষিত হয়। এটি অবশিষ্ট উদাহরণের সঠিকতার দ্বারা গণনা করা হয় - সেই অনুযায়ী সাফল্য বা ব্যর্থতার জন্য এক বা শূন্য। সমস্ত n বিচারের ফলাফল, ডেটাসেটের প্রতিটি গোষ্ঠীর জন্য একটি, গড় করা হয় এবং সেই গড় শেষ ত্রুটির অনুমানকে সংজ্ঞায়িত করে৷

এই প্রক্রিয়াটি দুটি কারণে একটি আকর্ষণীয়। প্রথমত, প্রতিটি ক্ষেত্রে প্রশিক্ষণের জন্য সর্বোচ্চ সম্ভাব্য পরিমাণ রেকর্ড ব্যবহার করা যেতে পারে, যা সম্ভবত শ্রেণীবদ্ধকারীর একটি খাঁটি হওয়ার সম্ভাবনাকে উন্নত করে।

দ্বিতীয়ত, পদ্ধতিটি নির্ধারক − কোন এলোমেলো নমুনা জড়িত নয়। এটি 10 ​​বার পুনরাবৃত্তি করার কোন অর্থ নেই, বা এটি মোটেও পুনরাবৃত্তি করে। প্রতিবার একই ফলাফল পাওয়া যাবে। এর বিপরীতে সেট করা হল উচ্চ গণনামূলক খরচ কারণ পুরো শিক্ষার পর্বটি n বার চালানো উচিত এবং এটি সাধারণত উচ্চ ডেটাসেটের জন্য অসম্ভাব্য৷

বুটস্ট্র্যাপ

দ্বিতীয় অনুমান পদ্ধতিটি আমরা বর্ণনা করি, বুটস্ট্র্যাপ, প্রতিস্থাপনের সাথে নমুনা নেওয়ার পরিসংখ্যানগত পদ্ধতির উপর ভিত্তি করে। পূর্বে, যখনই একটি প্রশিক্ষণ বা পরীক্ষার সেট তৈরি করার জন্য ডেটাসেট থেকে একটি নমুনা নেওয়া হয়েছিল, এটি প্রতিস্থাপন ছাড়াই আঁকা হয়েছিল৷

বেশিরভাগ শেখার স্কিম একই দৃষ্টান্ত দুবার ব্যবহার করতে পারে, এবং এটি শেখার ফলাফলে পার্থক্য করে যদি এটি প্রশিক্ষণ সেটে দুইবার উপস্থিত থাকে। বুটস্ট্র্যাপের ধারণা হল একটি প্রশিক্ষণ সেট তৈরি করার জন্য প্রতিস্থাপন সহ ডেটাসেটের নমুনা। আমরা একটি নির্দিষ্ট বৈকল্পিক বর্ণনা করব, রহস্যজনকভাবে (কিন্তু একটি কারণ যা শীঘ্রই স্পষ্ট হয়ে উঠবে) যাকে 0.632 বুটস্ট্র্যাপ বলা হয়।

এর জন্য, n দৃষ্টান্তগুলির একটি ডেটাসেট n বার নমুনা করা হয়, পুনরুদ্ধার সহ, n দৃষ্টান্তগুলির একটি ভিন্ন ডেটাসেট প্রদান করতে। যেহেতু এই দ্বিতীয় ডেটাসেটের কিছু উপাদান (প্রায় নিশ্চিতভাবে) পুনরাবৃত্তি করা হবে, তাই মূল ডেটাসেটে এমন কিছু দৃষ্টান্ত থাকতে হবে যা বাছাই করা হয়নি—আমরা এগুলিকে পরীক্ষার উদাহরণ হিসাবে ব্যবহার করব।

প্রশিক্ষণ সেটে একটি শিক্ষা ব্যবস্থাকে প্রশিক্ষণ দিয়ে এবং পরীক্ষার সেটের উপর তার ত্রুটি গণনা করার মাধ্যমে প্রাপ্ত চিত্রটি প্রকৃত ত্রুটির হারের একটি হতাশাবাদী অনুমান হবে কারণ প্রশিক্ষণ সেট, যদিও এর আকার n, তথাপি শুধুমাত্র 63% উদাহরণ রয়েছে, যেটি তুলনামূলক বড় কিছু নয়, উদাহরণস্বরূপ, 90% দশগুণ ক্রস-ভ্যালিডেশনে ব্যবহৃত হয়।


  1. ওয়েব মাইনিংয়ের পদ্ধতিগুলি কী কী?

  2. স্থানিক ডেটা মাইনিংয়ের জন্য ক্লাস্টারিং পদ্ধতিগুলি কী কী?

  3. স্থানীয় ডেটা মাইনিংয়ের আদিম বিষয়গুলি কী?

  4. গোপনীয়তা-সংরক্ষণের ডেটা মাইনিংয়ের পদ্ধতিগুলি কী কী?