কম্পিউটার

GSP কি?


GSP মানে জেনারেলাইজড সিকোয়েন্সিয়াল প্যাটার্নস। এটি একটি অনুক্রমিক প্যাটার্ন মাইনিং পদ্ধতি যা 1996 সালে শ্রীকান্ত এবং অগ্রবাল দ্বারা উত্পাদিত হয়েছিল। এটি সাধারণ আইটেমসেট মাইনিংয়ের জন্য তাদের সেমিনাল অ্যালগরিদমের একটি সম্প্রসারণ, যাকে Apriori বলা হয়। GSP-এর জন্য অনুক্রমিক নিদর্শনগুলির নিম্নমুখী-বন্ধ প্রকৃতির প্রয়োজন এবং একটি বহু-পাস, শিক্ষার্থীরা তৈরি-এবং-পরীক্ষা পদ্ধতি গ্রহণ করে৷

অ্যালগরিদম নিম্নরূপ। ডাটাবেসের প্রথম স্ক্যানে, এটি কিছু ঘন ঘন আইটেম আবিষ্কার করতে পারে, যেমন, ন্যূনতম সমর্থন সহ। প্রতিটি আইটেম সেই আইটেমটি সহ একটি 1-ইভেন্টের ঘন ঘন সিকোয়েন্স দেয়। প্রতিটি পরবর্তী পাস ক্রমিক প্যাটার্নের একটি বীজ গোষ্ঠী এবং পূর্ববর্তী পাসে পাওয়া অনুক্রমিক নিদর্শনগুলির গ্রুপ দিয়ে শুরু হয়।

এই বীজ সেটটি নতুন সম্ভাব্য ঘন ঘন নিদর্শন তৈরি করতে পারে, যা প্রার্থী ক্রম হিসাবে পরিচিত। প্রতিটি প্রার্থী সিরিজে বীজের অনুক্রমিক প্যাটার্নের চেয়ে আরও একটি আইটেম রয়েছে যেখান থেকে এটি তৈরি করা হয়েছিল (যেখানে প্যাটার্নের প্রতিটি ইভেন্ট এক বা একাধিক আইটেম অন্তর্ভুক্ত করতে পারে)।

একটি অনুক্রমের আইটেমের একাধিক দৃষ্টান্ত হল ক্রমটির উচ্চতা। অতএব, প্রদত্ত পাসের কিছু প্রার্থীর ক্রম একই উচ্চতা থাকবে। এটি k-এর ক্রম হিসাবে দৈর্ঘ্য k সহ একটি ক্রম সংজ্ঞায়িত করে৷

Ck যাক প্রার্থী k-ক্রমের সেট নির্দেশ করুন। ডাটাবেসের একটি পাস প্রতিটি প্রার্থী কে-সিকোয়েন্সের জন্য সমর্থন আবিষ্কার করে। Ck এর প্রার্থীরা ন্যূনতম min_sup ফর্ম Lk সহ , সমস্ত ঘন ঘন k-ক্রমের সেট। এই সেটটি নিম্নলিখিত পাসের জন্য বীজ সেটে বিকশিত হয়, k+1। পাসে কোনো নতুন ক্রমিক প্যাটার্ন আবিষ্কৃত না হলে বা কোনো প্রার্থীর ক্রম তৈরি করা না গেলে অ্যালগরিদম সরিয়ে দেয়।

GSP নিম্নলিখিত হিসাবে প্রার্থীদের সেট ছোট করতে Apriori সম্পত্তি ব্যবহার করে। k-th পাসে, একটি সিরিজ শুধুমাত্র তখনই প্রার্থী হয় যদি এর প্রতিটি দৈর্ঘ্য-(k −1) পরবর্তী অনুক্রমিক প্যাটার্ন (k −1)-তম পাসে আবিষ্কৃত হয়।

ডাটাবেসের একটি নতুন স্ক্যান প্রতিটি প্রার্থীর অনুক্রমের জন্য সমর্থন একত্রিত করে এবং অনুক্রমিক নিদর্শনের একটি নতুন সেট আবিষ্কার করে, Lk . এই সেট নিম্নলিখিত পাস জন্য বীজ মধ্যে বিকাশ. কোনো পাসে কোনো ক্রমিক প্যাটার্ন আবিষ্কৃত না হলে বা কোনো প্রার্থীর ক্রম তৈরি না হলে অ্যালগরিদম সরিয়ে দেয়।

Apriori-এর মতো অনুক্রমিক প্যাটার্ন মাইনিং কৌশলগুলি (প্রার্থীর তৈরি এবং পরীক্ষার উপর ভিত্তি করে) উল্লম্ব ডেটা বিন্যাসে একটি সিকোয়েন্স ডাটাবেস পরিমাপ করেও বিশ্লেষণ করা যেতে পারে। উল্লম্ব ডেটা বিন্যাসে, ডাটাবেস ফর্মের টিপলগুলির একটি সেটে পরিণত হয় (আইটেমসেট:(sequence_ID, event_ID))।

ইভেন্ট শনাক্তকারী একটি অনুক্রমের মধ্যে একটি টাইমস্ট্যাম্প হিসাবে প্রদান করে। একটি ক্রমানুসারে ith আইটেমসেটের (বা ঘটনা) event_ID হল i. একটি আইটেমসেট একের বেশি অনুক্রমে প্রদর্শিত হতে পারে। একটি প্রদত্ত আইটেমসেটের জন্য (ক্রম আইডি, ইভেন্ট আইডি) সেটটি আইটেমসেটের ID_তালিকা গঠন করে।


  1. ক্রমিক প্যাটার্ন মাইনিং কি?

  2. মাইনিং সিকোয়েন্স ডেটার প্রকারগুলি কী কী?

  3. পাইথনে কোলন ':' অপারেটর কী করে?

  4. পাইথনে একটি সিকোয়েন্স ডেটা টাইপ কি?