দূরত্ব ভিত্তিক আউটলায়ার কি?

একটি ডেটা সেট S-এ একটি অবজেক্ট o হল একটি দূরত্ব-ভিত্তিক (DB) আউটলায়ার যার প্যারামিটারগুলি p এবং d, অর্থাৎ, DB (p, d), যদি S-তে থাকা বস্তুগুলির ন্যূনতম একটি ভগ্নাংশ p থেকে d থেকে বেশি দূরত্বে থাকে o অন্য কথায়, পরিসংখ্যানগত পরীক্ষার উপর নির্ভর করার পরিবর্তে, এটি দূরত্ব-ভিত্তিক আউটলায়ারকে সেই বস্তু হিসাবে ভাবতে পারে যাদের পর্যাপ্ত প্রতিবেশী নেই।

প্রদত্ত বস্তু থেকে দূরত্বের উপর ভিত্তি করে প্রতিবেশীদের প্রতিনিধিত্ব করা হয়। পরিসংখ্যান-ভিত্তিক পদ্ধতির সাথে তুলনা করে, দূরত্ব-ভিত্তিক আউটলায়ার সনাক্তকরণ স্ট্যান্ডার্ড ডিস্ট্রিবিউশনের জন্য অসংগতি পরীক্ষার পিছনে ধারণাগুলিকে সাধারণীকরণ বা একত্রিত করে। তাই, দূরত্ব-ভিত্তিক আউটলায়ারকে ইউনিফাইড আউটলায়ার বা UO-আউটলায়ারও বলা হয়।

দূরত্ব-ভিত্তিক আউটলায়ার সনাক্তকরণ অত্যধিক গণনাকে বাধা দেয় যা কিছু মানক বিতরণে এবং অসংগতি পরীক্ষা বেছে নেওয়ার ক্ষেত্রে পর্যবেক্ষণ করা বিতরণকে ফিট করার সাথে সম্পর্কিত হতে পারে। কিছু ডিসকর্ডেন্সি পরীক্ষার জন্য, এটি প্রদর্শিত হতে পারে যে প্রদত্ত পরীক্ষা অনুসারে যদি একটি বস্তু o একটি আউটলায়ার হয়, তাহলে oও একটি DB (p, d) আউটলায়ার কিছু সঠিকভাবে উপস্থাপন করা p এবং d এর জন্য।

উদাহরণস্বরূপ, যদি গড় থেকে 3 বা তার বেশি মানক বিচ্যুতি থাকা বস্তুগুলিকে সাধারণ বন্টন বিবেচনা করে বহির্মুখী হিসাবে গণ্য করা হয়, তাহলে এই উপস্থাপনাটি একটি DB(0.9988, 0.13s)-একটি আউটলায়ার দ্বারা "একীভূত" হতে পারে। মাইনিং দূরত্ব-ভিত্তিক আউটলায়ারের জন্য বেশ কয়েকটি দক্ষ অ্যালগরিদম তৈরি করা হয়েছে যা নিম্নরূপ -

সূচক-ভিত্তিক অ্যালগরিদম − একটি ডেটা সেট দেওয়া হলে, সূচক-ভিত্তিক অ্যালগরিদম R-trees বা k-d গাছ সহ বহুমাত্রিক সূচীকরণ কাঠামোকে সাহায্য করে, সেই বস্তুর চারপাশে d ব্যাসার্ধের ভিতরে প্রতিটি বস্তুর প্রতিবেশীদের অনুসন্ধান করতে। একটি আউটলারের d-প্রতিবেশীর মধ্যে M হল বস্তুর সর্বাধিক সংখ্যা। সুতরাং, একবার O এর M + 1 প্রতিবেশী আবিষ্কৃত হলে, এটি অ্যাক্সেসযোগ্য যে o একটি বহিরাগত নয়। এই অ্যালগরিদমে O (k * n2) এর সর্বনিম্ন কেস জটিলতা রয়েছে, যেখানে k হল মাত্রা, এবং n হল ডেটা সেটের বস্তুর সংখ্যা।

নেস্টেড-লুপ অ্যালগরিদম৷ − নেস্টেড-লুপ অ্যালগরিদমের সূচক-ভিত্তিক অ্যালগরিদমের মতো একই মূল্যায়ন জটিলতা রয়েছে কিন্তু সূচক কাঠামো নির্মাণ এড়িয়ে যায় এবং I/O-এর সংখ্যা কমানোর চেষ্টা করে। এটি মেমরির বাফার এলাকাগুলিকে দুটি অর্ধে ভাগ করে, এবং ডেটা বেশ কয়েকটি লজিক্যাল ব্লকে সেট করা হয়৷

সেল-ভিত্তিক অ্যালগরিদম৷ - এটি O(n² এড়াতে পারে ) কম্পিউটেশনাল জটিলতা, মেমরি-আবাসিক ডেটা সেটের জন্য একটি সেল-ভিত্তিক অ্যালগরিদম তৈরি করা হয়েছিল। এর জটিলতা হল O (e^k + n), যেখানে c হল কক্ষের সংখ্যার উপর ভিত্তি করে একটি ধ্রুবক, এবং k হল মাত্রিকতা।

এই পদ্ধতিতে, ডাটা স্পেসকে $\frac{d}{\sqrt[2]{k}}$ এর মত সাইড দৈর্ঘ্য সহ কক্ষে বিভাজন করা হয়। প্রতিটি কোষের চারপাশে দুটি স্তর রয়েছে।

প্রথম স্তরটি একটি কোষ পুরু, দ্বিতীয় স্তরটি $\sqrt[2]{k}$ কোষ পুরু, নিকটতম পূর্ণসংখ্যা পর্যন্ত বৃত্তাকার। অ্যালগরিদম অবজেক্ট-বাই-অবজেক্টের পরিবর্তে সেল-বাই-সেলে আউটলায়ার গণনা করে। একটি প্রদত্ত কক্ষের জন্য, এটি কোষে বস্তুর সংখ্যা, কক্ষে এবং প্রথম স্তর একসঙ্গে এবং কক্ষে এবং উভয় স্তর একসাথে সহ তিনটি গণনা জমা করে৷