মাইনিং নেতিবাচক নিদর্শন জন্য কৌশল কি কি?

বিরল নিদর্শন খনির জন্য উত্পাদিত প্রথম শ্রেণীর কৌশল প্রতিটি আইটেমকে একটি প্রতিসম বাইনারি পরিবর্তনশীল হিসাবে বিবেচনা করে। লেনদেনের তথ্য নেতিবাচক আইটেমগুলির সাথে বৃদ্ধি করে বাইনারি করা যেতে পারে। এটি ইতিবাচক এবং নেতিবাচক উভয় আইটেম থাকা লেনদেনে প্রাথমিক ডেটা পরিবর্তন করার একটি উদাহরণ প্রদর্শন করে। বর্ধিত লেনদেনে Apriori সহ বর্তমান ঘন ঘন আইটেমসেট জেনারেশন অ্যালগরিদম ব্যবহার করে, কিছু নেতিবাচক আইটেমসেট পাওয়া যেতে পারে।

এই ধরনের একটি পদ্ধতি শুধুমাত্র তখনই সম্ভব যখন বেশ কয়েকটি ভেরিয়েবলকে সিমেট্রিক বাইনারি হিসাবে বিবেচনা করা হয় (অর্থাৎ, এটি শুধুমাত্র অল্প সংখ্যক আইটেমের নেতিবাচকতা ধারণকারী নেতিবাচক প্যাটার্নের জন্য দেখা হয়)। যদি প্রতিটি আইটেমকে সিমেট্রিক বাইনারি হিসাবে বিবেচনা করা উচিত, তাহলে নিম্নলিখিত কারণে সমস্যাটি গণনাগতভাবে কঠিন হয়ে যায়।

একাধিক আইটেম দ্বিগুণ হয় যখন প্রতিটি আইটেম তার সংশ্লিষ্ট নেতিবাচক আইটেম দিয়ে বৃদ্ধি করা হয়। 2^d আকারের একটি আইটেমসেট জালি অন্বেষণ করার পরিবর্তে , যেখানে d হল প্রারম্ভিক ডেটা সেটের আইটেমের সংখ্যা, জালিটি বেশি হয়ে যায়।

নেতিবাচক আইটেম বর্ধিত হলে সমর্থন-ভিত্তিক ছাঁটাই আর কার্যকর হয় না। প্রতিটি পরিবর্তনশীল x এর জন্য, হয় x বা x^’ 50% এর বেশি বা সমান প্রদান করেছে। তাই, সমর্থন থ্রেশহোল্ড 50% এর মতো বড় হলেও, অর্ধেক আইটেম ঘন ঘন হবে।

নিম্ন থ্রেশহোল্ডের জন্য, বেশ কয়েকটি আইটেম এবং সম্ভবত সেগুলি সহ আইটেমসেটগুলি ঘন ঘন হবে৷ Apriori দ্বারা নিযুক্ত সমর্থন-ভিত্তিক ছাঁটাই পদ্ধতিগুলি তখনই কার্যকর হয় যখন বেশিরভাগ আইটেমসেটের সমর্থন কম হয়; তাই, বিভিন্ন ঘন ঘন আইটেমসেট দ্রুতগতিতে বৃদ্ধি পায়।

নেতিবাচক আইটেম বৃদ্ধি করা হলে প্রতিটি লেনদেনের প্রস্থ উন্নত হয়। প্রাথমিক ডেটা সেটে d আইটেম উপলব্ধ রয়েছে তা বিবেচনা করুন। বাজারের ঝুড়ি লেনদেন সহ বিক্ষিপ্ত ডেটা সেটের জন্য, প্রতিটি লেনদেনের প্রভাবের প্রস্থ d-এর থেকে অনেক ছোট হতে হবে।

তদনুসারে, একটি ঘন ঘন আইটেমসেটের সর্বাধিক আকার, যা সর্বাধিক লেনদেনের প্রস্থ দ্বারা সীমাবদ্ধ, w_{সর্বোচ্চ} , সহযোগীভাবে ছোট হতে প্রভাব. যখন নেতিবাচক আইটেমগুলি থাকে, তখন লেনদেনের প্রস্থ d পর্যন্ত বৃদ্ধি পায় কারণ একটি আইটেম লেনদেনে উপস্থিত থাকে বা লেনদেন থেকে অনুপস্থিত থাকে, তবে উভয়ই নয়৷

কারণ সর্বাধিক লেনদেনের প্রস্থ w_{সর্বোচ্চ} থেকে বেড়েছে d থেকে, এটি একাধিক ঘন ঘন আইটেমসেটের সংখ্যা দ্রুত পরিবর্তন করবে। তদনুসারে, কিছু বর্তমান অ্যালগরিদমগুলি যখন দীর্ঘ ডেটা সেটে অভ্যস্ত হয় তখন ভেঙে যায়৷

পূর্বের ব্রুট-ফোর্স পদ্ধতিটি গণনাগতভাবে ব্যয়বহুল কারণ এটি আমাদের বিপুল সংখ্যক ইতিবাচক এবং নেতিবাচক নিদর্শনগুলির সমর্থনের সিদ্ধান্ত নিতে বাধ্য করে। নেতিবাচক আইটেমগুলির সাথে ডেটা সেটকে বৃদ্ধি করার পরিবর্তে, আরেকটি পদ্ধতি হল নেতিবাচক আইটেমসেটগুলির সমর্থনের উপর নির্ভর করে তাদের পারস্পরিক সম্পর্কযুক্ত ইতিবাচক আইটেমগুলির সমর্থনের সিদ্ধান্ত নেওয়া৷