কম্পিউটার

উচ্চ-মাত্রিক ডেটাতে আউটলায়ার সনাক্তকরণের চ্যালেঞ্জগুলি কী কী?


উচ্চ-মাত্রিক ডেটাতে বহির্মুখী সনাক্তকরণের বিভিন্ন চ্যালেঞ্জ রয়েছে নিম্নরূপ -

আউটলারের ব্যাখ্যা − তারা অবশ্যই বহিরাগতদের সনাক্ত করতে সক্ষম হবেন না, বরং বহিরাগতদের ব্যাখ্যাকে সমর্থন করতে হবে। যেহেতু একটি উচ্চ-মাত্রিক ডেটা সেটে বেশ কয়েকটি বৈশিষ্ট্য (বা মাত্রা) রয়েছে, কেন তারা বহিরাগত তা ব্যাখ্যা না করে বহিরাগতদের সনাক্ত করা খুব সহায়ক নয়৷

বহিরাগতদের ব্যাখ্যা নির্দিষ্ট সাবস্পেস থেকে আবির্ভূত হতে পারে যা বহিরাগতকে প্রকাশ করে বা বস্তুর "বাহ্যিকতা" সম্পর্কিত একটি মূল্যায়ন। এই ধরনের ব্যাখ্যা ব্যবহারকারীদের বহিরাগতদের সম্ভাব্য অর্থ এবং গুরুত্ব শিখতে সহায়তা করতে পারে।

ডেটা স্পারসিটি - পদ্ধতিগুলি অবশ্যই উচ্চমাত্রিক এলাকায় স্পার্সিটি পরিচালনা করতে সক্ষম হবে। মাত্রার উন্নতির সাথে সাথে বস্তুর মধ্যে দূরত্বটি শব্দ দ্বারা প্রবলভাবে প্রভাবিত হয়। এইভাবে, উচ্চ-মাত্রিক এলাকায় ডেটা বিরল।

ডেটা সাবস্পেস − তাদের উচিত বহিরাগতদের উপযুক্তভাবে মডেল করা, উদাহরণস্বরূপ, বহিরাগতদেরকে বোঝায় এবং তথ্যের স্থানীয় আচরণ পাওয়া সাবস্পেসগুলির সাথে অভিযোজিত। আউটলায়ার্স শনাক্ত করার জন্য এটি কিছু সাবস্পেসের বিপরীতে একটি নির্দিষ্ট দূরত্বের থ্রেশহোল্ড ব্যবহার করা যেতে পারে একটি সর্বোত্তম ধারণা নয় কারণ মাত্রিকতা বৃদ্ধির সাথে সাথে দুটি বস্তুর মধ্যে দূরত্ব একঘেয়েভাবে বৃদ্ধি পায়।

মাত্রিকতার সাথে স্কেলেবিলিটি − মাত্রিকতা বাড়ার সাথে সাথে একাধিক সাবস্পেস দ্রুতগতিতে উন্নত হয়। অনুসন্ধান স্থানের একটি সম্পূর্ণ সমন্বিত বিশ্লেষণ, যার মধ্যে কিছু সম্ভাব্য সাবস্পেস রয়েছে, এটি একটি মাপযোগ্য পদ্ধতি নয়৷

উচ্চ-মাত্রিক ডেটার জন্য বহিরাগত সনাক্তকরণ পদ্ধতিগুলিকে তিনটি প্রধান পদ্ধতিতে ভাগ করা যায় নিম্নরূপ -

প্রচলিত বহিরাগত সনাক্তকরণ সম্প্রসারণ - উচ্চ-মাত্রিক ডেটাতে আউটলায়ার সনাক্তকরণের জন্য একটি পদ্ধতি প্রচলিত আউটলায়ার সনাক্তকরণ পদ্ধতিগুলিকে উন্নত করে। এটি বহিরাগতদের প্রচলিত প্রক্সিমিটি-ভিত্তিক মডেলের প্রয়োজন। এটি উচ্চ-মাত্রিক স্থানগুলিতে প্রক্সিমিটি পরিমাপের অবনতি কাটিয়ে উঠতে পারে, এটির বিকল্প ব্যবস্থার প্রয়োজন হয় বা সাবস্পেস তৈরি করে এবং সেখানে বহিরাগতদের সনাক্ত করে৷

HilOut অ্যালগরিদম এই পদ্ধতির একটি উদাহরণ। HilOut দূরত্ব-ভিত্তিক আউটলিয়ার আবিষ্কার করে, কিন্তু আউটলায়ার সনাক্তকরণে পরম দূরত্বের পরিবর্তে দূরত্বের র‌্যাঙ্ক প্রয়োজন। বিশেষ করে, প্রতিটি বস্তুর জন্য, o, HilOut nn1 দ্বারা নির্দেশিত o-এর k- নিকটতম প্রতিবেশী আবিষ্কার করে (o),...,nnk (o), যেখানে k একটি সফ্টওয়্যার-নির্ভর পরামিতি।

বস্তু o এর ওজন

হিসাবে উপস্থাপন করা হয়

$$\mathrm{w(o) =\displaystyle\sum\limits_{i=1}^k dist(o,nn_{i}(o))}$$

সাবস্পেসে বহিরাগতদের খোঁজা − উচ্চ-মাত্রিক ডেটাতে আউটলায়ার সনাক্তকরণের জন্য অন্য পদ্ধতিটি হল বিভিন্ন সাবস্পেসে আউটলিয়ারদের সন্ধান করা। একটি সুনির্দিষ্ট সুবিধা হল, যদি একটি বস্তুকে অনেক কম মাত্রার একটি সাবস্পেসে আউটলায়ার হিসেবে আবিষ্কৃত হয়, তাহলে সাবস্পেসটি কেন এবং কী পরিমাণ অবজেক্টটি একটি আউটলায়ার তা নির্বাহ করার জন্য সমালোচনামূলক ডেটা সমর্থন করে। মাত্রার অপ্রতিরোধ্য সংখ্যার কারণে উচ্চ-মাত্রিক ডেটা সহ অ্যাপ্লিকেশনগুলিতে এটি অত্যন্ত মূল্যবান৷

মডেলিং হাই-ডাইমেনশনাল আউটলায়ার্স − উচ্চ-মাত্রিক ডেটাতে আউটলায়ার সনাক্তকরণ পদ্ধতির জন্য একটি বিকল্প পদ্ধতি উচ্চ-মাত্রিক আউটলারের জন্য সঠিকভাবে নতুন মডেল তৈরি করার চেষ্টা করে৷


  1. ডেটা মাইনিংয়ে আউটলায়ারের ধরন কী কী?

  2. Outliers কি?

  3. ডেটা ইন্টিগ্রিটি কত প্রকার?

  4. তথ্য নিরাপত্তা চ্যালেঞ্জ কি?