একটি আউটলিয়ার হল একটি ডেটা অবজেক্ট যা মূলত বাকি অবজেক্ট থেকে বিচ্যুত হয়, যেন এটি একটি ভিন্ন কাঠামো দ্বারা উত্পাদিত হয়। উপস্থাপনা সহজ করার জন্য, এটি "স্বাভাবিক" বা প্রত্যাশিত তথ্য হিসাবে বহির্মুখী নয় এমন ডেটা অবজেক্টকে সংজ্ঞায়িত করতে পারে। একইভাবে, এটি বহিরাগতকে "অস্বাভাবিক" ডেটা হিসাবে সংজ্ঞায়িত করতে পারে।
Outliers হল ডেটা উপাদান যা একটি প্রদত্ত শ্রেণী বা ক্লাস্টারে একত্রিত করা যায় না। এগুলি হল ডেটা অবজেক্ট যা বিভিন্ন ডেটা অবজেক্টের সাধারণ আচরণ থেকে বেশ কিছু আচরণ করে। এই ধরণের ডেটা বিশ্লেষণ জ্ঞানের জন্য গুরুত্বপূর্ণ হতে পারে।
আউটলিয়ার সনাক্তকরণের বিভিন্ন চ্যালেঞ্জ রয়েছে নিম্নরূপ -
সাধারণ বস্তু এবং আউটলিয়ারকে কার্যকরভাবে মডেল করা − আউটলায়ার সনাক্তকরণ উপাদানটি মূলত স্বাভাবিক (ননআউটলার) বস্তু এবং আউটলারের মডেলিংয়ের উপর ভিত্তি করে। এটি সামান্য কারণ একটি অ্যাপ্লিকেশনে কিছু উপলব্ধ স্বাভাবিক আচরণ গণনা করা জটিল৷
৷ডেটা স্বাভাবিকতা এবং অস্বাভাবিকতা (আউটলার) এর মধ্যে সীমানা পরিষ্কার নয়। পরিবর্তে, ধূসর অ্যাপ্লিকেশনের বিস্তৃত পরিসর হতে পারে। ফলস্বরূপ, ইনপুট তথ্যে প্রতিটি বস্তুর জন্য বিভিন্ন আউটলায়ার সনাক্তকরণ কৌশলগুলি "স্বাভাবিক" বা "আউটলিয়ার" এর একটি লেবেল সেট করার সময়, অন্যান্য পদ্ধতি প্রতিটি বস্তুর জন্য একটি স্কোর বরাদ্দ করে যা বস্তুর "বহির্ভূততা" গণনা করে।
অ্যাপ্লিকেশন-নির্দিষ্ট আউটলায়ার সনাক্তকরণ − এটি সাদৃশ্য/দূরত্ব পরিমাপ নির্বাচন করছে এবং ডেটা অবজেক্টকে সংজ্ঞায়িত করার জন্য সম্পর্ক মডেলটি আউটলিয়ার সনাক্তকরণে অপরিহার্য। দুর্ভাগ্যবশত, এই ধরনের পছন্দ সফ্টওয়্যার-নির্ভর। বেশ কয়েকটি অ্যাপ্লিকেশনের একাধিক প্রয়োজনীয়তা থাকতে পারে৷
আউটলিয়ার সনাক্তকরণে শব্দ পরিচালনা করা - আউটলায়াররা শব্দ থেকে আলাদা। এটা জানা যায় যে প্রকৃত তথ্যের গুণমান খারাপ হতে প্রভাবিত করে। বেশ কয়েকটি অ্যাপ্লিকেশনে সংগৃহীত ডেটাতে গোলমাল অনিবার্যভাবে বিদ্যমান। নয়েজকে অ্যাট্রিবিউট মানগুলির বিচ্যুতি হিসাবে দেখানো হতে পারে বা অনুপস্থিত মান হিসাবে মসৃণ করা যেতে পারে।
নিম্ন ডেটা গুণমান এবং শব্দের অস্তিত্ব আউটলিয়ার সনাক্তকরণের জন্য একটি বিশাল চ্যালেঞ্জ বহন করে। তারা তথ্য প্রতারণা করতে পারে, স্বাভাবিক বস্তু এবং বহিরাগতদের মধ্যে পার্থক্য ঝাপসা করে। তদুপরি, শব্দ এবং অনুপস্থিত তথ্য আউটলিয়ারকে "লুকাতে" পারে এবং আউটলার সনাক্তকরণের কার্যকারিতা হ্রাস করতে পারে একটি আউটলায়ার একটি নয়েজ পয়েন্ট হিসাবে "ছদ্মবেশে" ঘটতে পারে, এবং একটি আউটলায়ার সনাক্তকরণ পদ্ধতি ভুলভাবে একটি আউটলায়ার হিসাবে একটি শব্দ বিন্দুকে চিনতে পারে৷
বোধগম্যতা − কিছু অ্যাপ্লিকেশন পদ্ধতিতে, একজন ব্যবহারকারীকে শুধুমাত্র বহিরাগতদের সনাক্ত করতে হবে না, তবে সনাক্ত করা বস্তুগুলি কেন বহিরাগত তাও শিখতে হবে। এটি বোঝার প্রয়োজনীয়তাকে একত্রিত করতে পারে, একটি বহিরাগত সনাক্তকরণ কৌশলগুলি সনাক্তকরণের কিছু কারণকে সমর্থন করতে পারে৷
উদাহরণস্বরূপ, একটি পরিসংখ্যানগত পদ্ধতি ব্যবহার করা যেতে পারে যে ডিগ্রীটি একটি বস্তুর বহিঃপ্রকাশ হতে পারে তা যাচাই করার জন্য সেই সম্ভাবনার উপর নির্ভর করে যে বস্তুটি একই কাঠামোর দ্বারা তৈরি হয়েছিল যা বেশিরভাগ রেকর্ড তৈরি করেছে। সম্ভাবনা যত কম, একই কাঠামোর দ্বারা বস্তুটি তৈরি হওয়ার সম্ভাবনা তত বেশি, এবং বস্তুটি একটি আউটলায়ার তত বেশি গ্রহণযোগ্য।