কম্পিউটার

ডেটা মাইনিংয়ে কে-মিনস অ্যালগরিদমের অতিরিক্ত সমস্যাগুলি কী কী?


কে-মিনস অ্যালগরিদমের বিভিন্ন সমস্যা রয়েছে যা নিম্নরূপ -

খালি ক্লাস্টারগুলি পরিচালনা করা৷ − পূর্বে দেওয়া বেসিক K- মানে অ্যালগরিদমের প্রথম সমস্যাটি হল যে অ্যাসাইনমেন্ট পর্বের সময় কোনও ক্লাস্টারে কোনও পয়েন্ট বরাদ্দ না থাকলে নাল ক্লাস্টারগুলি অর্জন করা যেতে পারে। যদি এটি ঘটে, তাহলে একটি প্রতিস্থাপন সেন্ট্রোয়েড বেছে নেওয়ার জন্য একটি পদ্ধতির প্রয়োজন, কারণ বর্গক্ষেত্র ত্রুটিটি প্রয়োজনের চেয়ে বড় হবে৷

একটি পদ্ধতি হল বিন্দু নির্বাচন করা যা কিছু সাম্প্রতিক সেন্ট্রোয়েড থেকে সবচেয়ে দূরে। যদি এটি সেই বিন্দুটিকে সরিয়ে দেয় যা বর্তমানে কিছু মোট বর্গক্ষেত্র ত্রুটির অবদান রাখে। আরেকটি পদ্ধতি হল ক্লাস্টার থেকে প্রতিস্থাপন সেন্ট্রোয়েড নির্বাচন করা যেখানে বৃহত্তম SSE আছে। এটি সাধারণত ক্লাস্টারকে বিভক্ত করবে এবং ক্লাস্টারিংয়ের সম্পূর্ণ SSE হ্রাস করবে। যদি একাধিক নাল ক্লাস্টার থাকে, তাহলে এই প্রক্রিয়াটি একাধিকবার পুনরাবৃত্তি করা যেতে পারে।

বহিরাগত − যখন বর্গক্ষেত্র ত্রুটির পদ্ধতি ব্যবহার করা হয়, তখন আউটলায়াররা আবিষ্কৃত হওয়া ক্লাস্টারগুলির প্রতি অযথা ঝোঁক দিতে পারে। নির্দিষ্টভাবে, যখন আউটলিয়ার উপস্থিত থাকে, ফলে ক্লাস্টার সেন্ট্রোয়েডগুলি (প্রোটোটাইপ) ততটা প্রতিনিধিত্ব করতে পারে না যতটা তারা হতে পারে, এবং এইভাবে, SSEও উচ্চতর হবে৷

আউটলার খুঁজে বের করা এবং আগে থেকে তাদের সরিয়ে দেওয়া উপকারী৷ এটি উপলব্ধি করা অপরিহার্য যে নির্দিষ্ট ক্লাস্টারিং অ্যাপ্লিকেশন রয়েছে যার জন্য বহিরাগত অপসারণ করা উচিত নয়। যখন ডেটা সংকোচনের জন্য ক্লাস্টারিং ব্যবহার করা হয়, তখন প্রতিটি পয়েন্ট ক্লাস্টার করা উচিত, এবং কিছু ক্ষেত্রে, আর্থিক বিশ্লেষণ সহ, সম্ভাব্য বহিরাগত, যেমন, অস্বাভাবিকভাবে লাভজনক ব্যবহারকারী, আকর্ষণীয় পয়েন্ট হতে পারে৷

পোস্টপ্রসেসিংয়ের মাধ্যমে SSE হ্রাস করা − SSE কমানোর পদ্ধতি হল আরও ক্লাস্টার খুঁজে বের করা, যেমন, একটি বড় K-এর প্রয়োজন। এই ধরনের ক্ষেত্রে, এটি SSE-কে উন্নত করতে পারে, কিন্তু ক্লাস্টারের সংখ্যা বাড়ানোর প্রয়োজন নেই। এটি সম্ভব কারণ Kmeans সাধারণত একটি স্থানীয় সর্বনিম্ন রূপান্তরিত হয়।

নিম্ন SSE আছে এমন একটি ক্লাস্টারিং তৈরি করতে ফলস্বরূপ ক্লাস্টারগুলিকে "ফিক্স-আপ" করতে বিভিন্ন পদ্ধতি ব্যবহার করা হয়। পদ্ধতিটি হল পৃথক ক্লাস্টারগুলিতে লক্ষ্য করা কারণ সম্পূর্ণ SSE সহজেই প্রতিটি ক্লাস্টার দ্বারা অবদানকৃত SSE এর মোট। এটি ক্লাস্টারগুলিতে বিভক্ত বা একত্রিতকরণ সহ ক্লাস্টারগুলিতে বেশ কয়েকটি ক্রিয়াকলাপ প্রয়োগ করে মোট SSE পরিবর্তন করতে পারে৷

একটি পদ্ধতি হল একটি বিকল্প ক্লাস্টার বিভাজন এবং মার্জিং পদ্ধতি ব্যবহার করা। একটি বিভাজন পদ্ধতির সময়, ক্লাস্টারগুলি বিভক্ত হয়, যখন একটি মার্জিং পদ্ধতির সময়, ক্লাস্টারগুলি একত্রিত হয়। এই পদ্ধতিতে, স্থানীয় SSE মিনিমা প্রত্যাহার করা এবং জব্দ করা ক্লাস্টারের সংখ্যার সাথে একটি ক্লাস্টারিং সমাধান তৈরি করা অ্যাক্সেসযোগ্য। বিভক্তকরণ এবং একত্রিতকরণের পর্যায়গুলিতে নিম্নলিখিত কিছু পদ্ধতি ব্যবহার করা হয়েছে যা নিম্নরূপ -


  1. ডেটা মাইনিংয়ে টেক্সট মাইনিংয়ের ক্ষেত্রগুলি কী কী?

  2. ডেটা গুদামের নিরাপত্তা সমস্যাগুলি কী কী?

  3. ডেটা মাইনিং ইন্টারফেস কি?

  4. ডেটা মাইনিংয়ে ওএলএপি অপারেশনগুলি কী কী?