কম্পিউটার

Outlier সনাক্তকরণ কি?


একটি আউটলিয়ার হল একটি ডেটা অবজেক্ট যা মূলত বাকি অবজেক্ট থেকে বিচ্ছিন্ন হয় যেন এটি বিভিন্ন প্রক্রিয়া দ্বারা উত্পাদিত হয়। প্রদর্শনের বিষয়বস্তুর জন্য, এটি ডেটা অবজেক্টকে সংজ্ঞায়িত করতে পারে যেগুলি "স্বাভাবিক" বা প্রত্যাশিত ডেটা হিসাবে বহির্মুখী নয়। সাধারণত, এটি বহিরাগতকে "অস্বাভাবিক" ডেটা হিসাবে সংজ্ঞায়িত করতে পারে।

Outliers হল ডেটা উপাদান যা একটি প্রদত্ত শ্রেণী বা ক্লাস্টারে একত্রিত করা যায় না। এগুলি হল ডেটা অবজেক্ট যা বিভিন্ন ডেটা অবজেক্টের স্বাভাবিক আচরণ থেকে বেশ কিছু আচরণ করে। এই ধরণের ডেটা বিশ্লেষণ জ্ঞানের জন্য গুরুত্বপূর্ণ হতে পারে।

Outliers আকর্ষণীয় কারণ তারা বাকি ডেটার মতো একই কাঠামোর দ্বারা তৈরি হয়নি বলে সন্দেহ করা হয়। তাই, বহিরাগত সনাক্তকরণের ক্ষেত্রে, চিহ্নিত করা বহিরাগতগুলি কেন বিভিন্ন প্রক্রিয়া দ্বারা উত্পাদিত হয় তার ন্যায্যতা প্রমাণ করা অপরিহার্য৷

এক-শ্রেণির শ্রেণীবিভাগকে আউটলিয়ার (বা অভিনবত্ব) সনাক্তকরণ বলা হয় কারণ প্রশিক্ষণের রেকর্ড বিতরণের ক্ষেত্রে স্বাভাবিক এবং অস্বাভাবিক ডেটার মধ্যে পার্থক্য করতে শেখার অ্যালগরিদম ব্যবহার করা যেতে পারে।

উদাহরণস্বরূপ, একটি সামাজিক মিডিয়া ওয়েবসাইট পর্যবেক্ষণ করে যেখানে নতুন বিষয়বস্তু আসছে, অভিনবত্ব সনাক্তকরণ নতুন বিষয় এবং প্রবণতা অবিলম্বে সনাক্ত করতে পারে। অভিনব বিষয়গুলি মূলত বহিরাগত হিসাবে উপস্থিত হতে পারে৷

বাহ্যিক সনাক্তকরণ এবং নতুনত্ব সনাক্তকরণ মডেলিং এবং সনাক্তকরণ পদ্ধতির মধ্যে কিছু মিল ভাগ করে নেয়। তবে দুটির মধ্যে একটি গুরুত্বপূর্ণ পার্থক্য হল যে নতুনত্ব সনাক্তকরণে, একবার নতুন বিষয়গুলি নিশ্চিত হয়ে গেলে, সেগুলি সাধারণত সাধারণ আচরণের মডেলে একীভূত হয় যাতে ফলো-আপ দৃষ্টান্তগুলিকে আর বাইরের হিসাবে বিবেচনা করা হয় না৷

এক-শ্রেণির শ্রেণীবিভাগের একটি জেনেরিক পরিসংখ্যানগত পদ্ধতি হল বহিরাগতদের এমন উদাহরণ হিসাবে চিনতে যা প্রশিক্ষণের তথ্যের প্রদত্ত শতাংশ p থেকে আরও দূরত্ব d। অধিকন্তু, প্রশিক্ষণের তথ্যে গাউসিয়ান সহ একটি পরিসংখ্যানগত বন্টন ফিট করে লক্ষ্য শ্রেণীর জন্য একটি সম্ভাব্যতা ঘনত্ব গণনা করা যেতে পারে; কম সম্ভাব্যতা মান সহ কিছু পরীক্ষা দৃষ্টান্ত বহিরাগত হিসাবে স্পষ্ট হতে পারে।

মাল্টিক্লাস ক্লাসিফায়ারগুলিকে ফোকাস ডেটার চারপাশে একটি সীমানা ফিট করে এবং বহিরাগত উদাহরণগুলিকে বহিরাগত বলে মনে করে এক-শ্রেণির অবস্থান অনুসারে তৈরি করা যেতে পারে। সমর্থন ভেক্টর মেশিন সহ বর্তমান মাল্টিক্লাস ক্লাসিফায়ারগুলির ভিতরের কাজগুলি ঠিক করে সীমানা তৈরি করা যেতে পারে৷

এই পন্থাগুলি একটি প্যারামিটারের উপর ব্যাপকভাবে নির্ভর করে যা নির্ধারণ করে যে কতটা লক্ষ্য তথ্য বহিরাগত হিসাবে সংজ্ঞায়িত করা হবে। যদি এটি খুব রক্ষণশীলভাবে নির্বাচন করা হয়, তাহলে ফোকাস ক্লাসের ডেটা ভুলভাবে বাদ দেওয়া হবে। যদি এটি খুব উদারভাবে নির্বাচিত হয়, মডেলটি ওভারফিট হবে এবং অনেকগুলি বৈধ রেকর্ড প্রত্যাখ্যান করবে। প্রত্যাখ্যানের হার সাধারণত পরীক্ষার সময় পরিবর্তন করা যায় না, কারণ প্রশিক্ষণের সময় একটি উপযুক্ত প্যারামিটার মান নির্বাচন করা প্রয়োজন।


  1. উচ্চ-মাত্রিক ডেটাতে আউটলায়ার সনাক্তকরণের চ্যালেঞ্জগুলি কী কী?

  2. আউটলাইয়ার সনাক্তকরণের পদ্ধতিগুলি কী কী?

  3. আউটলায়ার সনাক্তকরণের চ্যালেঞ্জগুলি কী কী?

  4. Outliers কি?