কম্পিউটার

রিলেশনাল ডাটাবেস এবং ডেটা গুদাম থেকে খনির বহুমাত্রিক অ্যাসোসিয়েশনের নিয়মগুলি কী কী?


অ্যাসোসিয়েশন রুল লার্নিং হল এক ধরনের তত্ত্বাবধানহীন শিক্ষার কৌশল যা অন্য ডেটা উপাদানের উপর একটি ডেটা উপাদানের নির্ভরতার জন্য পরীক্ষা করে এবং সেই অনুযায়ী মানচিত্র তৈরি করে যাতে এটি আরও বাণিজ্যিক হতে পারে। এটি ডেটাসেটের ভেরিয়েবলের মধ্যে কিছু আকর্ষণীয় সম্পর্ক বা সমিতি আবিষ্কার করার চেষ্টা করে। ডাটাবেসে ভেরিয়েবলের মধ্যে আকর্ষণীয় সম্পর্ক খুঁজে পেতে এটি বেশ কয়েকটি নিয়মের উপর নির্ভর করে।

অ্যাসোসিয়েশন রুল লার্নিং হল মেশিন লার্নিংয়ের অপরিহার্য ধারণা, এবং এটি মার্কেট বাস্কেট বিশ্লেষণ, ওয়েব ব্যবহার মাইনিং, ক্রমাগত উত্পাদন ইত্যাদিতে নিযুক্ত করা হয়৷ তাই বাজারের ঝুড়ি বিশ্লেষণ হল আইটেমগুলির মধ্যে সম্পর্ক খুঁজে বের করার জন্য বেশ কয়েকটি বড় খুচরা বিক্রেতাদের দ্বারা ব্যবহৃত একটি পদ্ধতি৷

বাজারের ঝুড়ি বিশ্লেষণে, গ্রাহকরা তাদের কেনাকাটার ঝুড়িতে যে আইটেমগুলি রাখেন তার মধ্যে সংযোগ খুঁজে বের করে গ্রাহক কেনার অভ্যাস বিশ্লেষণ করা হয়।

এই জাতীয় সমিতিগুলি আবিষ্কার করার মাধ্যমে, খুচরা বিক্রেতারা সাধারণত কোন আইটেমগুলি গ্রাহক দ্বারা ক্রয় করে তা বিশ্লেষণ করে বিপণন পদ্ধতি তৈরি করে। এই অ্যাসোসিয়েশন খুচরা বিক্রেতাদের নির্বাচনী বিপণন করতে এবং তাদের শেলফ এলাকার জন্য পরিকল্পনা করার জন্য সমর্থন করে বিক্রয় বৃদ্ধি করতে পারে।

মাল্টি-লেভেল অ্যাসোসিয়েশনের জন্য আবেদনের জনপ্রিয় ক্ষেত্র হল বাজারের ঝুড়ি বিশ্লেষণ, যা গ্রাহকদের ক্রয় অভ্যাসগুলি অধ্যয়ন করে যেগুলি প্রায়শই কেনা হয়, একত্রে কেনা আইটেমগুলির সেটগুলি অনুসন্ধান করে যা ধারণা শ্রেণিবিন্যাসের ধারণায় প্রদর্শিত হয়েছিল৷

দুই বা ততোধিক মাত্রা বা ভবিষ্যদ্বাণী সহ সংস্থার নিয়মগুলিকে বহুমাত্রিক অ্যাসোসিয়েশন নিয়ম হিসাবে উল্লেখ করা যেতে পারে। উদাহরণস্বরূপ,

বয়স (X, "20...29") ^পেশা (X,"ছাত্র") =>কেনছে (X,"ল্যাপটপ")

এই নিয়মে তিনটি পূর্বাভাস রয়েছে (বয়স, পেশা এবং ক্রয়), যার প্রতিটি নিয়মে একবারই ঘটে, এই ধরনের নিয়মগুলিকে আন্তঃমাত্রিক সংঘের নিয়ম বলা হয়। যে নিয়মগুলি বারবার ভবিষ্যদ্বাণী করে বা কিছু পূর্বাভাসের একাধিক ঘটনা থাকে তাকে হাইব্রিড-ডাইমেনশন অ্যাসোসিয়েশন নিয়ম বলা হয়।

উদাহরণস্বরূপ,

বয়স (X, "20...29") ^buys (X,"Laptop") =>কেনে (X,"প্রিন্টার")

ডাটাবেসের গুণাবলী শ্রেণীগত বা পরিমাণগত হওয়া উচিত।

শ্রেণীবদ্ধ বৈশিষ্ট্যগুলির সম্ভাব্য মানগুলির একটি সীমিত সংখ্যক রয়েছে, যার মানগুলির মধ্যে কোনও ক্রম নেই যাকে নামমাত্র বৈশিষ্ট্যও বলা হয়৷

পরিমাণগত বৈশিষ্ট্যগুলি সাংখ্যিক এবং মানগুলির মধ্যে একটি অন্তর্নিহিত অনুক্রম রয়েছে৷ পরিমাণগত বৈশিষ্ট্যের চিকিত্সা সংক্রান্ত তিনটি মৌলিক পদ্ধতি নিম্নরূপ -

  • প্রথম পদ্ধতিতে, পরিমাণগত বৈশিষ্ট্যগুলি একটি পূর্বনির্ধারিত ধারণা শ্রেণিবিন্যাস ব্যবহার করে বিচ্ছিন্ন করা হয়, যা খনির আগে ঘটে। বিচ্ছিন্ন সাংখ্যিক বৈশিষ্ট্যগুলি তাদের পরিসরের মানগুলির সাথে শ্রেণীবদ্ধ বৈশিষ্ট্য হিসাবে বিবেচনা করা যেতে পারে৷

  • দ্বিতীয় পদ্ধতিতে, পরিমাণগত বৈশিষ্ট্যগুলি বিনগুলিতে শ্রেণীবদ্ধ করা হয় এবং এটি ডেটা বিতরণের উপর ভিত্তি করে। খনির প্রক্রিয়া চলাকালীন এই বিনগুলিকে আরও একত্রিত করা যেতে পারে। তাই বিচক্ষণতার প্রক্রিয়াটি গতিশীল এবং প্রতিষ্ঠিত।

  • তৃতীয় পদ্ধতিতে, এই ধরনের ব্যবধান ডেটার শব্দার্থগত অর্থ ক্যাপচার করার জন্য পরিমাণগত বৈশিষ্ট্যগুলিকে আলাদা করা হয়। এই শক্তিশালী বিচক্ষণতার পর্যায় ডেটা পয়েন্টগুলির মধ্যে দূরত্বকে চিকিত্সা করে।


  1. লেনদেন ডাটাবেস থেকে খনির মাল্টিলেভেল অ্যাসোসিয়েশন নিয়ম কি?

  2. ডেটা মাইনিং ইন্টারফেস কি?

  3. ডেটা গুদামগুলিতে ব্যাকআপ এবং পুনরুদ্ধারের কৌশল কী?

  4. অনুপ্রবেশ সনাক্তকরণ এবং প্রতিরোধের জন্য ডেটা মাইনিংয়ের পদ্ধতিগুলি কী কী?