কম্পিউটার

শ্রেণীবিভাগ কিভাবে কাজ করে?


শ্রেণিবিন্যাস হল একটি ডেটা-মাইনিং পদ্ধতি যা আরও দক্ষ ভবিষ্যদ্বাণী এবং বিশ্লেষণে সহায়তা করার জন্য ডেটার একটি সেটে উপাদানগুলিকে বরাদ্দ করে। শ্রেণীবিভাগ সাধারণত ব্যবহৃত হয় যখন বাইনারি শ্রেণীবিভাগ হিসাবে পরিচিত দুটি লক্ষ্য শ্রেণী থাকে।

যখন দুইটির বেশি শ্রেণী ভবিষ্যদ্বাণী করা যায়, বিশেষ করে প্যাটার্ন শনাক্তকরণ সমস্যায়, এটিকে বহুপদ শ্রেণীবিভাগ হিসাবে সংজ্ঞায়িত করা হয়। যাইহোক, বহুপদ শ্রেণীবিভাগ শ্রেণীবদ্ধ প্রতিক্রিয়া ডেটার জন্য ব্যবহার করা যেতে পারে, যেখানে একজনকে ভবিষ্যদ্বাণী করতে হবে যে বিভিন্ন উপাদানের মধ্যে কোন বিভাগে সবচেয়ে বেশি সম্ভাবনা রয়েছে।

ডেটা শ্রেণীবিভাগ একটি দ্বি-পদক্ষেপ পর্যায়। প্রথম পর্যায়ে, ডেটা ক্লাস বা ধারণাগুলির একটি পূর্বনির্ধারিত সংগ্রহকে সংজ্ঞায়িত করে একটি শ্রেণীবিভাগ তৈরি করা হয়। এটি শেখার পর্যায় (বা প্রশিক্ষণের পর্যায়), যেখানে একটি শ্রেণিবিন্যাস অ্যালগরিদম ডেটাবেস টিপল এবং তাদের সম্পর্কিত ক্লাস লেবেলগুলির তৈরি একটি প্রশিক্ষণ সেট বিশ্লেষণ বা "থেকে বোঝার" মাধ্যমে শ্রেণিবিন্যাসকারীকে তৈরি করে।

একটি টিপল, X, একটি এন-ডাইমেনশনাল অ্যাট্রিবিউট ভেক্টর দ্বারা বর্ণনা করা হয়েছে, X =(x1 , x2 , … xn ), n পরিমাপ সংজ্ঞায়িত করা n ডাটাবেস বৈশিষ্ট্য থেকে টিপলে তৈরি হয়, সেই অনুযায়ী, A1 ,A2 ,... An .

প্রতিটি টিপল, X, ক্লাস লেবেল অ্যাট্রিবিউট নামে পরিচিত অন্য ডাটাবেস অ্যাট্রিবিউট দ্বারা নির্ধারিত পূর্বনির্ধারিত ক্লাসের অন্তর্গত বলে মনে করা হয়। শ্রেণী লেবেল বৈশিষ্ট্য বিচ্ছিন্ন-মূল্যবান এবং ক্রমহীন। এটি সুনির্দিষ্ট যে প্রতিটি মান একটি বিভাগ বা শ্রেণী হিসাবে প্রদান করে।

প্রশিক্ষণ সেট তৈরি করা একক টিপলগুলিকে প্রশিক্ষণ টিপল হিসাবে সংজ্ঞায়িত করা হয় এবং বিশ্লেষণের অধীনে ডাটাবেস থেকে বেছে নেওয়া হয়। শ্রেণীবিভাগের কাঠামোতে, ডেটা টিপলগুলিকে নমুনা, দৃষ্টান্ত, ডেটা পয়েন্ট বা বস্তু হিসাবে সংজ্ঞায়িত করা যেতে পারে।

যেহেতু প্রতিটি ট্রেনিং টিপলের ক্লাস লেবেল সমর্থিত, এই ধাপটিকে তত্ত্বাবধানে শিক্ষা বলা হয়। এটি তত্ত্বাবধানহীন শিক্ষার (বা ক্লাস্টারিং) সাথে তুলনা করতে পারে, যেখানে প্রতিটি প্রশিক্ষণ টিপলের ক্লাস লেবেল জনপ্রিয় নয় এবং বোঝার জন্য ক্লাসের সংখ্যা বা সেট আগে থেকে জানা যাবে না।

দ্বিতীয় পর্যায়ে, মডেলটি শ্রেণীবিভাগের জন্য ব্যবহার করা যেতে পারে। প্রথমত, শ্রেণিবিন্যাসকারীর ভবিষ্যদ্বাণীমূলক নির্ভুলতা ভবিষ্যদ্বাণী করা হয়। যদি এটি ক্লাসিফায়ারের নির্ভুলতা গণনা করার জন্য প্রশিক্ষণ সেট ব্যবহার করতে পারে, তাহলে এই অনুমানটি আশাবাদী হতে পারে, কারণ ক্লাসিফায়ার রেকর্ডগুলিকে ওভারফিট করার প্রবণতা রাখে (অর্থাৎ, শেখার সময় এটি প্রশিক্ষণের রেকর্ডগুলির কিছু নির্দিষ্ট অসঙ্গতিকে অন্তর্ভুক্ত করতে পারে যা সাধারণ ডেটা সেট সম্পূর্ণ)।

তাই, একটি টেস্ট সেট ব্যবহার করা হয়, টেস্ট টিপল এবং তাদের সম্পর্কিত ক্লাস লেবেল তৈরি করা হয়। এই টিপলগুলি এলোমেলোভাবে সাধারণ ডেটা সেট থেকে বেছে নেওয়া হয়েছে। এগুলি প্রশিক্ষণের টিপলগুলির থেকে আলাদা, সংজ্ঞায়িত করে যে সেগুলি ক্লাসিফায়ার তৈরিতে ব্যবহৃত হয় না৷


  1. টুইটার কি এবং এটি কিভাবে কাজ করে?

  2. মাইক্রোসফ্ট টিম কি এবং এটি কিভাবে কাজ করে?

  3. কিভাবে ডেটা স্ক্র্যাপিং কাজ করে?

  4. কিভাবে Snapchat কাজ করে?