কিভাবে আমরা Apriori-ভিত্তিক খনির দক্ষতা আরও উন্নত করতে পারি?

Apriori অ্যালগরিদমের কিছু বৈচিত্র রয়েছে যা মূল অ্যালগরিদমের কার্যকারিতা বিকাশকে লক্ষ্য করে অনুমান করা হয়েছে যা নিম্নরূপ -

হ্যাশ-ভিত্তিক কৌশল (আইটেমসেটকে সংশ্লিষ্ট বালতিতে হ্যাশ করা) - একটি হ্যাশ-ভিত্তিক কৌশল প্রার্থী কে-আইটেমসেটের আকার হ্রাস করতে ব্যবহার করা যেতে পারে, C_k , k> 1 এর জন্য। উদাহরণস্বরূপ, ঘন ঘন 1-আইটেমসেট তৈরি করতে ডাটাবেসের প্রতিটি লেনদেন স্ক্যান করার সময়, L₁ , C₁-এ প্রার্থী 1-আইটেমসেট থেকে , এটি প্রতিটি লেনদেনের জন্য কিছু 2-আইটেমসেট তৈরি করতে পারে, হ্যাশ (অর্থাৎ, মানচিত্র) সেগুলিকে একটি হ্যাশ টেবিল কাঠামোর বেশ কয়েকটি বালতিতে পরিণত করতে পারে এবং সমতুল্য বালতি সংখ্যা বৃদ্ধি করতে পারে৷

লেনদেন হ্রাস৷ − একটি লেনদেন যা কিছু ঘন ঘন কে-আইটেমসেট অন্তর্ভুক্ত করে না কিছু ঘন ঘন (k + 1)-আইটেমসেট অন্তর্ভুক্ত করতে পারে না। সুতরাং, এই ধরনের লেনদেন আরও বিবেচনা থেকে চিহ্নিত বা মুছে ফেলা যেতে পারে কারণ j-আইটেমসেটের জন্য ডাটাবেসের পরবর্তী স্ক্যান, যেখানে j> k, এর প্রয়োজন হবে না।

পার্টিশনিং৷ − একটি পার্টিশনিং কৌশল ব্যবহার করা যেতে পারে যার জন্য ঘন ঘন আইটেমসেটগুলি খনির জন্য দুটি ডাটাবেস স্ক্যানের প্রয়োজন হয়। এটির মধ্যে দুটি পর্যায় অন্তর্ভুক্ত রয়েছে প্রথম ধাপে, অ্যালগরিদম D-এর লেনদেনগুলিকে n নন-ওভারল্যাপিং পার্টিশনে বিভক্ত করে। যদি D-এ লেনদেনের জন্য সর্বনিম্ন সমর্থন থ্রেশহোল্ড হয় min_sup, তাই একটি পার্টিশনের জন্য ন্যূনতম সমর্থন গণনা min_sup × সেই পার্টিশনে লেনদেনের সংখ্যা।

প্রতিটি পার্টিশনের জন্য, পার্টিশনের মধ্যে সমস্ত ঘন ঘন আইটেমসেট আবিষ্কৃত হয়। এগুলিকে স্থানীয় ঘন ঘন আইটেমসেট হিসাবে সংজ্ঞায়িত করা হয়। প্রক্রিয়াটি একটি নির্দিষ্ট ডেটা কাঠামো নিয়োগ করে যা প্রতিটি আইটেমসেটের জন্য, আইটেমসেটের আইটেমগুলি সহ লেনদেনের টিআইডি রেকর্ড করে। এটি ডাটাবেসের শুধুমাত্র একটি স্ক্যানে k =1, 2... এর জন্য সমস্ত স্থানীয় ঘন ঘন কে-আইটেমসেটগুলি খুঁজে পেতে সক্ষম করে৷

একটি স্থানীয় ঘন ঘন আইটেমসেট পুরো ডাটাবেসের সাথে ঘন ঘন সম্পর্কিত হতে পারে বা হতে পারে না, D. যে কোনো আইটেমসেট যা সম্ভবত ঘন ঘন সম্পর্কিত D অবশ্যই একটি ঘন ঘন আইটেমসেট হিসাবে উপস্থিত হতে হবে আংশিকভাবে পার্টিশনগুলির মধ্যে একটি। এইভাবে, সমস্ত স্থানীয় ঘন ঘন আইটেমসেটগুলি হল প্রার্থীর আইটেমসেটগুলি সামান্য ডি। সমস্ত পার্টিশন থেকে ঘন ঘন আইটেমসেটের সেটটি D-এর জন্য বিশ্বভিত্তিক প্রার্থীর আইটেমসেট তৈরি করে। দ্বিতীয় পর্বে, D-এর দ্বিতীয় স্ক্যানটি সংগঠিত হয় যেখানে প্রতিটি প্রার্থীর প্রকৃত সমর্থন মূল্যায়ন করা হয়। বিশ্বব্যাপী ঘন ঘন আইটেমসেট নির্ধারণ করুন।

স্যাম্পলিং৷ − নমুনা পদ্ধতির মৌলিক ধারণা হল প্রদত্ত ডেটা D-এর একটি এলোমেলো নমুনা S নির্বাচন করা, এবং তারপর D-এর পরিবর্তে S-তে ঘন ঘন আইটেমসেটগুলি অনুসন্ধান করা৷ এই পদ্ধতিতে, এটি দক্ষতার বিপরীতে কিছুটা নির্ভুলতা বাণিজ্য করতে পারে৷ S-এর নমুনার আকার এমন যে S-তে ঘন ঘন আইটেমসেটের অনুসন্ধান প্রধান মেমরিতে সম্পূর্ণ করা যেতে পারে, এবং তাই সামগ্রিকভাবে S-এ লেনদেনের শুধুমাত্র একটি স্ক্যান প্রয়োজন।