কম্পিউটার

পরিসংখ্যানগত পদ্ধতি কি?


পরিসংখ্যানগত পন্থা হল মডেল-ভিত্তিক পন্থা যেমন ডেটার জন্য একটি মডেল তৈরি করা হয় এবং বস্তুগুলি কতটা ভালোভাবে মডেলের সাথে মানানসই হয় সেই বিষয়ে গণনা করা হয়। আউটলিয়ার সনাক্তকরণের বেশিরভাগ পরিসংখ্যানগত পদ্ধতিগুলি একটি সম্ভাব্যতা বন্টন মডেল বিকাশের উপর নির্ভর করে এবং আইকেলি অবজেক্টগুলি কীভাবে সেই মডেলের নীচে রয়েছে তা বিবেচনা করে।

একটি আউটলিয়ার হল এমন একটি বস্তু যার সম্ভাব্যতা বণ্টন মডেলের ডেটা সম্পর্কিত কম সম্ভাবনা রয়েছে। ব্যবহারকারী-সংজ্ঞায়িত ডিস্ট্রিবিউশনের প্যারামিটারগুলি গণনা করে ডেটা থেকে একটি সম্ভাব্যতা বন্টন মডেল তৈরি করা হয়।

যদি ডেটার একটি গাউসিয়ান বন্টন বলে মনে করা হয়, তাই ডেটার গড় এবং মানক বিচ্যুতি গণনা করে মৌলিক বন্টনের গড় এবং মানক বিচ্যুতি পরিমাপ করা যেতে পারে। ডিস্ট্রিবিউশনের নীচের প্রতিটি বস্তুর সম্ভাব্যতা গণনা করা যেতে পারে।

পরিসংখ্যানগত পরীক্ষার একটি বিস্তৃত পদ্ধতি যা পরিসংখ্যানগত সাহিত্যে পরিচিত হিসাবে পরিচিত, বহিরাগতদের চিহ্নিত করার জন্য বা অসংগত পর্যবেক্ষণের উপর ভিত্তি করে তৈরি করা হয়েছে। এই অসংগতি পরীক্ষাগুলির মধ্যে কয়েকটি অত্যন্ত বিশেষায়িত এবং পরিসংখ্যানগত জ্ঞানের একটি স্তর বিবেচনা করে এই পাঠ্যটির ক্ষমতাকে আরও বাড়িয়ে দেয়৷

একটি ডেটা সেটের নির্দিষ্ট বন্টন সনাক্তকরণ − যদিও গাউসিয়ান, পয়সন, বা দ্বিপদ সহ অল্প সংখ্যক সাধারণ বন্টন দ্বারা বিভিন্ন ধরণের ডেটা সংজ্ঞায়িত করা যেতে পারে, অ-মানক বিতরণ সহ ডেটা সেটগুলি সহযোগীভাবে সাধারণ। অবশ্যই, যদি ভুল মডেল নির্বাচন করা হয়, তাই একটি বস্তু ভুলভাবে একটি আউটলায়ার হিসাবে স্বীকৃত হতে পারে৷

উদাহরণ স্বরূপ, ডেটাকে গাউসিয়ান ডিস্ট্রিবিউশন থেকে আবির্ভূত হওয়ার মতো মডেল করা যেতে পারে, কিন্তু এমন একটি ডিস্ট্রিবিউশন থেকে আসতে পারে যেখানে গড় থেকে অনেক দূরে মান পাওয়ার সম্ভাবনা (গাউসিয়ান ডিস্ট্রিবিউশনের চেয়ে) বেশি। এই ধরনের আচরণের সাথে পরিসংখ্যানগত বন্টনগুলি বাস্তবে সাধারণ এবং একে হেভি-টেইল্ড ডিস্ট্রিবিউশন বলা হয়।

ব্যবহৃত বৈশিষ্ট্যের সংখ্যা − কিছু পরিসংখ্যানগত বহির্মুখী সনাক্তকরণ কৌশল একটি স্বতন্ত্র বৈশিষ্ট্যে ব্যবহার করে, কিন্তু কিছু কৌশল মাল্টিভেরিয়েট ডেটার জন্য উপস্থাপন করা হয়েছে৷

বন্টনের মিশ্রণ − ডেটাকে ডিস্ট্রিবিউশনের সংমিশ্রণ হিসাবে মডেল করা যেতে পারে, এবং এই ধরনের মডেলের উপর ভিত্তি করে আউটলার ডিটেকশন স্কিম তৈরি করা যেতে পারে। যদিও সম্ভাব্যভাবে আরও গতিশীল, এই ধরনের মডেলগুলি শিখতে এবং ব্যবহার করার জন্য উভয়ই জটিল। উদাহরণ স্বরূপ, পূর্ববর্তী অবজেক্ট সনাক্ত করার জন্য প্রয়োজনীয় ডিস্ট্রিবিউশনগুলিকে আউটলায়ার হিসাবে সংজ্ঞায়িত করা যেতে পারে।

আউটলিয়ার সনাক্তকরণের পরিসংখ্যানগত পদ্ধতির একটি দৃঢ় ভিত্তি রয়েছে এবং এটি একটি বিতরণের পরামিতি গণনা সহ স্ট্যান্ডার্ড পরিসংখ্যান কৌশলগুলির উপর নির্মিত। ডেটা এবং পরীক্ষার ধরন সম্পর্কে পর্যাপ্ত জ্ঞান থাকলে এই পরীক্ষাগুলি কার্যকর হতে পারে। পৃথক বৈশিষ্ট্যের জন্য পরিসংখ্যানগত আউটলিয়ারের পরীক্ষার একটি বিস্তৃত পদ্ধতি রয়েছে। মাল্টিভেরিয়েট ডেটার জন্য কম বিকল্পগুলি অ্যাক্সেসযোগ্য, এবং এই পরীক্ষাগুলি উচ্চ-মাত্রিক রেকর্ডের জন্য খারাপভাবে প্রয়োগ করতে পারে৷


  1. ডেটা মাইনিং এর কৌশল কি কি?

  2. ডেটা মাইনিং ইন্টারফেস কি?

  3. Outliers কি?

  4. পরিসংখ্যানগত ডেটা মাইনিংয়ের পদ্ধতিগুলি কী কী?