কম্পিউটার

অসঙ্গতির কারণ কি?


অসংগতি সনাক্তকরণে, উদ্দেশ্য হল একাধিক বস্তু থেকে ভিন্ন বস্তু আবিষ্কার করা। প্রায়শই, অস্বাভাবিক বস্তুগুলিকে আউটলিয়ার হিসাবে উল্লেখ করা হয়, কারণ ডেটার স্ক্যাটার প্লটে, তারা একাধিক ডেটা পয়েন্ট থেকে অনেক দূরে থাকে। অসামঞ্জস্যতা সনাক্তকরণকে একটি বিচ্যুতি সনাক্তকরণ বলা হয়, কারণ অস্বাভাবিক বস্তুর বৈশিষ্ট্য মান থাকে যা মূলত প্রত্যাশিত বা সাধারণ বৈশিষ্ট্য মান থেকে বিচ্যুত হয়, বা ব্যতিক্রম খনির হিসাবে, কারণ অসামঞ্জস্যগুলি বিভিন্ন অর্থে ব্যতিক্রমী।

বিশ্বে, মানব সমাজে, বা ডেটা গোষ্ঠীর ডোমেনে, বেশিরভাগ ঘটনা এবং বস্তু উপস্থাপনা, সাধারণ এলাকা বা নিয়মিত। কিন্তু এতে ভিন্ন বা অসাধারণ বস্তুর সম্ভাব্যতা সম্পর্কে গভীর জ্ঞান থাকতে পারে। এর মধ্যে রয়েছে ব্যতিক্রমী শুষ্ক বা বর্ষাকাল, জনপ্রিয় ক্রীড়াবিদ, বা একটি বৈশিষ্ট্যের মান যা অন্য সকলের চেয়ে অনেক ছোট বা বেশি।

অসঙ্গতির কিছু কারণ রয়েছে যা নিম্নরূপ -

বিভিন্ন শ্রেণীর ডেটা − একটি বস্তু একাধিক বস্তুর থেকে ভিন্ন হতে পারে যেমন অস্বাভাবিক, কারণ এটি একাধিক প্রকার বা শ্রেণীর। উদাহরণ স্বরূপ, ক্রেডিট কার্ডের প্রতারণাকারী কেউ ক্রেডিট কার্ড ব্যবহারকারীদের একাধিক শ্রেণীর অন্তর্ভুক্ত যাদের ক্রেডিট কার্ড সঠিকভাবে প্রয়োজন।

প্রদর্শিত কিছু উদাহরণ যেমন জালিয়াতি, অনুপ্রবেশ, রোগের প্রাদুর্ভাব, এবং অস্বাভাবিক পরীক্ষার ফলাফলগুলি হল অসঙ্গতির উদাহরণ যা একটি ভিন্ন শ্রেণীর উপাদানকে সংজ্ঞায়িত করে। এই ধরনের অসঙ্গতিগুলি যথেষ্ট আগ্রহের বিষয় এবং ডেটা মাইনিংয়ের ক্ষেত্রে অসঙ্গতি সনাক্তকরণের লক্ষ্য।

প্রাকৃতিক বৈচিত্র − কিছু ডেটা সেট পরিসংখ্যানগত বন্টন দ্বারা মডেল করা যেতে পারে, যার মধ্যে একটি স্বাভাবিক (গাউসিয়ান) বন্টন রয়েছে, যেখানে বিতরণের মাঝখানে থেকে বস্তুর দূরত্ব বৃদ্ধির সাথে সাথে একটি ডেটা অবজেক্টের সম্ভাবনা ক্রমশ হ্রাস পায়।

অন্য পদে, কিছু বস্তু একটি কেন্দ্রের কাছাকাছি (গড় বস্তু) এবং এই গড় বস্তু থেকে বস্তুর পার্থক্য হওয়ার সম্ভাবনা খুবই কম। উদাহরণস্বরূপ, একটি ব্যতিক্রমী লম্বা ব্যক্তি বস্তুর একটি স্বাধীন শ্রেণীর থেকে হওয়ার পদ্ধতিতে অস্বাভাবিক নয়, তবে শুধুমাত্র কিছু বস্তু দ্বারা গ্রাস করা বৈশিষ্ট্যের (উচ্চতা) জন্য সম্পূর্ণ মান থাকার পদ্ধতিতে। গুরুতর বা অসম্ভাব্য বৈচিত্রগুলিকে সংজ্ঞায়িত করে এমন অসঙ্গতিগুলি আকর্ষণীয়৷

ডেটা পরিমাপ এবং সংগ্রহের ত্রুটি - ডেটা সেট বা পরিমাপ প্রক্রিয়ার ত্রুটিগুলি অসঙ্গতির আরেকটি কারণ। উদাহরণস্বরূপ, কম্পিউটিং ডিভাইসের সাথে একটি মানব ত্রুটির সমস্যা বা শব্দের উপস্থিতির কারণে একটি পরিমাপ ভুলভাবে রেকর্ড করা যেতে পারে৷

উদ্দেশ্য হল এই ধরনের অসঙ্গতিগুলি দূর করা, কারণ তারা কোনও আকর্ষণীয় ডেটা সমর্থন করে না কিন্তু শুধুমাত্র ডেটার বৈশিষ্ট্য এবং পরবর্তী ডেটা বিশ্লেষণকে হ্রাস করে। প্রকৃতপক্ষে, এই ধরনের অসঙ্গতি মুছে ফেলার লক্ষ্য হল ডেটা প্রিপ্রসেসিং, বিশেষ করে ডেটা পরিষ্কার করা৷


  1. ডেটা মাইনিং এর কৌশল কি কি?

  2. ডেটা মাইনিং ইন্টারফেস কি?

  3. ডেটা ইন্টিগ্রিটি কত প্রকার?

  4. স্টেগানোগ্রাফির প্রয়োগ কী?