ডেটা বৈশিষ্ট্য কি?

নিম্নলিখিত তথ্যের কিছু বৈশিষ্ট্য যা ক্লাস্টার বিশ্লেষণকে দৃঢ়ভাবে প্রভাবিত করতে পারে যা নিম্নরূপ -

উচ্চ মাত্রা − উচ্চ-মাত্রিক ডেটা সেটে, ঘনত্বের প্রথাগত ইউক্লিডীয় ধারণা, যা প্রতি ইউনিট আয়তনে বেশ কয়েকটি বিন্দু তাৎপর্যপূর্ণ হয়ে ওঠে। এটি বিবেচনা করা হয় যে একাধিক মাত্রা বৃদ্ধির সাথে সাথে আয়তন ক্রমবর্ধমানভাবে বৃদ্ধি পায় এবং একাধিক বিন্দু একাধিক মাত্রার সাথে দ্রুতগতিতে বৃদ্ধি না হলে, ঘনত্ব 0-তে থাকে।

এটি উচ্চ-মাত্রিক এলাকায় আরও অভিন্ন হওয়ার জন্য প্রক্সিমিটি প্রভাব ফেলতে পারে। এই সত্যটি বিবেচনা করার আরেকটি পদ্ধতি রয়েছে তা হল যে দুটি বিন্দুর মধ্যে নৈকট্য সৃষ্টিতে অবদান রাখে এমন আরও মাত্রা (গুণাবলী) রয়েছে এবং এটি নৈকট্যকে আরও অভিন্ন করে তোলে।

যেহেতু বেশিরভাগ ক্লাস্টারিং কৌশলগুলি প্রক্সিমিটি বা ঘনত্বের উপর নির্ভর করে, তাদের উচ্চ-মাত্রিক তথ্যের সাথে অসুবিধা হতে পারে। এই ধরনের সমস্যাগুলি সমাধান করার একটি পদ্ধতি হল মাত্রা হ্রাস পদ্ধতি ব্যবহার করা।

আকার − কিছু ক্লাস্টারিং অ্যালগরিদম যা ছোট বা মাঝারি আকারের ডেটা সেটগুলির জন্য ভাল কাজ করে উচ্চতর ডেটা সেটগুলি পরিচালনা করতে অক্ষম৷

বিরলতা − স্পারস ডেটাতে অপ্রতিসম বৈশিষ্ট্য রয়েছে, যেখানে শূন্য মানগুলি অ-শূন্য মানের মতো গুরুত্বপূর্ণ নয়। তাই, অপ্রতিসম বৈশিষ্ট্যের জন্য উপযুক্ত সাদৃশ্য পরিমাপ সাধারণত ব্যবহৃত হয়।

কোলাহল এবং আউটলায়ার − একটি সাধারণ বিন্দু (আউটলার) ক্লাস্টারিং অ্যালগরিদমগুলির বাস্তবায়নকে মারাত্মকভাবে অবনমিত করতে পারে, বিশেষ করে কে-মান সহ অ্যালগরিদম যা প্রোটোটাইপ-ভিত্তিক। অন্য পদে, গোলমাল একক লিঙ্ক সহ কৌশলগুলিকে ক্লাস্টারে যোগ দিতে পারে যেগুলিকে একত্রিত করা উচিত নয়৷

সাধারণ ক্ষেত্রে, একটি ক্লাস্টারিং অ্যালগরিদম ব্যবহার করার আগে শব্দ এবং আউটলিয়ার দূর করার জন্য অ্যালগরিদম ব্যবহার করা হয়। অধিকন্তু, কিছু অ্যালগরিদম এমন পয়েন্টগুলি সনাক্ত করতে পারে যেগুলি ক্লাস্টারিং পর্বের সময় শব্দ এবং আউটলিয়ারগুলিকে সংজ্ঞায়িত করে এবং তারপরে সেগুলিকে সরিয়ে দেয় বা অন্যথায় তাদের নেতিবাচক প্রভাবগুলি সরিয়ে দেয়৷

গুণাবলী এবং ডেটা সেটের প্রকার − ডেটা সেটগুলি কাঠামোগত, গ্রাফ, বা অর্ডার সহ একাধিক প্রকারের হতে পারে, যখন বৈশিষ্ট্যগুলি শ্রেণীগত (নামমাত্র বা অর্ডিনাল) বা পরিমাণগত (ব্যবধান বা অনুপাত) হতে পারে এবং বাইনারি, বিযুক্ত বা অবিচ্ছিন্ন।

একাধিক প্রক্সিমিটি এবং ঘনত্বের পরিমাপ একাধিক ধরণের ডেটার জন্য উপযুক্ত। বিভিন্ন পরিস্থিতিতে, ডেটাকে বিচ্ছিন্ন বা বাইনারি করা প্রয়োজন হতে পারে যাতে কাঙ্ক্ষিত প্রক্সিমিটি পরিমাপ বা ক্লাস্টারিং অ্যালগরিদম ব্যবহার করা যায়৷

আরেকটি অসুবিধা দেখা দেয় যখন বৈশিষ্ট্যগুলি বিস্তৃতভাবে একাধিক ধরণের হয়, যেমন, অবিচ্ছিন্ন এবং নামমাত্র। এই পদ্ধতিতে, প্রক্সিমিটি এবং ঘনত্ব আরও জটিল এবং আরও অ্যাডহক প্রদান করে। অবশেষে, নির্দিষ্ট ধরনের ডেটা দক্ষতার সাথে পরিচালনা করার জন্য নির্দিষ্ট ডেটা স্ট্রাকচার এবং অ্যালগরিদমের প্রয়োজন হতে পারে।

স্কেল - একাধিক গুণাবলী যেমন উচ্চতা এবং ওজন, একাধিক স্কেলে পরিমাপ করা যেতে পারে। এই পার্থক্যগুলি দুটি বস্তুর মধ্যে দূরত্ব বা সাদৃশ্যকে শক্তিশালীভাবে প্রভাবিত করতে পারে এবং ফলস্বরূপ, একটি ক্লাস্টার বিশ্লেষণের ফলাফল। মিটারে গণনা করা লোকের উচ্চতার উপর নির্ভর করে এবং তাদের ওজন, যা কিলোগ্রামে গণনা করা হয় তার উপর নির্ভর করে গুচ্ছবদ্ধ করার কথা বিবেচনা করুন।