কম্পিউটার

Outliers কি?


একটি আউটলিয়ার হল একটি ডেটা অবজেক্ট যা মূলত বাকি অবজেক্ট থেকে বিচ্ছিন্ন হয়, যেন এটি একটি বিভিন্ন প্রক্রিয়া দ্বারা উত্পাদিত হয়েছে। উপস্থাপনা সহজ করার জন্য, এটি "স্বাভাবিক" বা প্রত্যাশিত তথ্য হিসাবে বহির্মুখী নয় এমন ডেটা অবজেক্টকে সংজ্ঞায়িত করতে পারে। সাধারণত, এটি বহিরাগতকে "অস্বাভাবিক" ডেটা হিসাবে সংজ্ঞায়িত করতে পারে।

Outliers হল ডেটা উপাদান যা একটি প্রদত্ত শ্রেণী বা ক্লাস্টারে একত্রিত করা যায় না। এগুলি হল ডেটা অবজেক্ট যা বিভিন্ন ডেটা অবজেক্টের স্বাভাবিক আচরণ থেকে বেশ কিছু আচরণ করে। এই ধরণের ডেটা বিশ্লেষণ জ্ঞানের জন্য গুরুত্বপূর্ণ হতে পারে।

Outliers গোলমাল তথ্য থেকে ভিন্ন. নয়েজ হল কম্পিউটেড ভেরিয়েবলের একটি এলোমেলো বাগ বা ভিন্নতা। সাধারণভাবে, আউটলায়ার সনাক্তকরণের মতো ডেটা বিশ্লেষণে শব্দ আকর্ষণীয় নয়।

উদাহরণস্বরূপ, ক্রেডিট কার্ড জালিয়াতি সনাক্তকরণে, ব্যবহারকারীর ক্রয় আচরণকে একটি এলোমেলো পরিবর্তনশীল হিসাবে মডেল করা যেতে পারে। একজন ব্যবহারকারী কিছু "গোলমাল লেনদেন" করতে পারে যা "এলোমেলো ত্রুটি" বা "ভেরায়েন্স" এর মতো দেখতে পারে, যার মধ্যে একদিন বড় লাঞ্চ কেনা বা স্বাভাবিকের চেয়ে আরও এক কাপ কফি গ্রহণ করা।

এই ধরনের লেনদেন বহিরাগত হিসাবে বিবেচনা করা উচিত নয়; অতএব, ক্রেডিট কার্ড কোম্পানি কিছু লেনদেন যাচাই করার জন্য বড় খরচ বহন করতে পারে। কোম্পানি ব্যবহারকারীদের বিভিন্ন মিথ্যা অ্যালার্ম দিয়ে বিরক্ত করে হারাতে পারে। বিভিন্ন ডেটা বিশ্লেষণ এবং ডেটা মাইনিং পরিষেবা হিসাবে, আউটলিয়ার সনাক্তকরণের আগে শব্দটি অবশ্যই নির্মূল করতে হবে৷

কিছু বাস্তব-বিশ্বের ডাটাবেসে বহিরাগত বা অনুপস্থিত, বেনামী, বা ভুল তথ্য থাকে। কিছু ক্লাস্টারিং অ্যালগরিদম এই ধরনের ডেটাতে তীব্র এবং নিম্নমানের ক্লাস্টারে শুরু করতে পারে।

Outliers আকর্ষণীয় কারণ তারা বাকি ডেটার মতো একই কাঠামোর দ্বারা তৈরি হয়নি বলে সন্দেহ করা হয়। তাই, বহিরাগত সনাক্তকরণের ক্ষেত্রে, চিহ্নিত করা বহিরাগতগুলি কেন বিভিন্ন প্রক্রিয়া দ্বারা উত্পাদিত হয় তার ন্যায্যতা প্রমাণ করা অপরিহার্য৷

এটি বাকি তথ্যের উপর বিভিন্ন অনুমান তৈরি করে এবং বহিরাগতরা সনাক্তকারীরা মূলত সেই অনুমানগুলি লঙ্ঘন করে তা প্রদর্শন করে অর্জন করা হয়। আউটলিয়ার সনাক্তকরণ ডেটা সেট সহ নতুনত্ব সনাক্তকরণের সাথেও যুক্ত। উদাহরণস্বরূপ, একটি সামাজিক মিডিয়া ওয়েবসাইট পর্যবেক্ষণ করে যেখানে নতুন বিষয়বস্তু আসছে, নতুনত্ব সনাক্তকরণ সময়মত নতুন বিষয় এবং প্রবণতা সনাক্ত করতে পারে।

উপন্যাসের বিষয়গুলি মূলত বহিরাগত হিসাবে উপস্থিত হতে পারে। বাহ্যিক সনাক্তকরণ এবং অভিনবত্ব সনাক্তকরণ মডেলিং এবং সনাক্তকরণ পদ্ধতির মধ্যে কিছু মিল ভাগ করে নেয়। তবে দুটির মধ্যে একটি গুরুত্বপূর্ণ পার্থক্য হল যে নতুনত্ব সনাক্তকরণে, একবার নতুন বিষয়গুলি নিশ্চিত হয়ে গেলে, সেগুলি সাধারণত সাধারণ আচরণের মডেলে একীভূত হয় যাতে ফলো-আপ দৃষ্টান্তগুলিকে আর বহিরাগত হিসাবে বিবেচনা করা হয় না৷


  1. উচ্চ-মাত্রিক ডেটাতে আউটলায়ার সনাক্তকরণের চ্যালেঞ্জগুলি কী কী?

  2. ডেটা মাইনিংয়ে আউটলায়ারের ধরন কী কী?

  3. ডেটা ইন্টিগ্রিটি কত প্রকার?

  4. C# এ বাতিলযোগ্য ডেটা টাইপগুলি কী কী?