ডেটা মাইনিং হল পরিসংখ্যানগত এবং সংখ্যাসূচক কৌশল সহ প্যাটার্ন শনাক্তকরণ প্রযুক্তি ব্যবহার করে সংগ্রহস্থলগুলিতে সংরক্ষিত উচ্চ পরিমাণ রেকর্ডের মাধ্যমে স্থানান্তর করে দরকারী নতুন পারস্পরিক সম্পর্ক, নিদর্শন এবং প্রবণতা আবিষ্কার করার পর্যায়। এটি সন্দেহাতীত সম্পর্কগুলি আবিষ্কার করতে এবং ডেটা মালিকের জন্য যৌক্তিক এবং সহায়ক উভয়ই অভিনব পদ্ধতিতে রেকর্ডগুলিকে সংক্ষিপ্ত করার জন্য তথ্যভিত্তিক ডেটাসেটের বিশ্লেষণ৷
এটি ডাটাবেসের মালিকের জন্য পরিষ্কার এবং উপকারী ফলাফল পেতে প্রথমে অজানা নিয়মিততা বা সম্পর্ক খুঁজে বের করার জন্য উচ্চ পরিমাণে তথ্যের নির্বাচন, অন্বেষণ এবং মডেলিংয়ের পদ্ধতি।
ডেটা মাইনিং ডেটা সায়েন্সের মতো। এটি একটি ব্যক্তি দ্বারা বাহিত হয়, একটি নির্দিষ্ট পরিস্থিতিতে, একটি নির্দিষ্ট ডেটা সেটে, একটি উদ্দেশ্য সহ। এই পর্বে টেক্সট মাইনিং, ওয়েব মাইনিং, অডিও এবং ভিডিও মাইনিং, বর্ণনামূলক ডেটা মাইনিং এবং সোশ্যাল মিডিয়া মাইনিং সহ বিভিন্ন ধরণের ফাংশন রয়েছে। এটি সফ্টওয়্যারের মাধ্যমে সম্পন্ন হয় যা সহজ বা অত্যন্ত নির্দিষ্ট।
ডেটা মাইনিং আউটসোর্সিং করে, কম অপারেশন খরচে সমস্ত কাজ দ্রুত করা যায়। নির্দিষ্ট সংস্থাগুলি ডেটা সংরক্ষণ করতে নতুন প্রযুক্তি ব্যবহার করতে পারে যা ম্যানুয়ালি খুঁজে পাওয়া অসম্ভব। একাধিক প্ল্যাটফর্মে প্রচুর পরিমাণে ডেটা উপলব্ধ রয়েছে, তবে খুব সীমিত জ্ঞান অ্যাক্সেসযোগ্য৷
৷প্রধান চ্যালেঞ্জ হল প্রয়োজনীয় ডেটা বের করার জন্য ডেটা বিশ্লেষণ করা যা একটি সমস্যা সমাধান করতে বা কোম্পানির উন্নয়নের জন্য ব্যবহার করা যেতে পারে। ডেটা মাইন করার জন্য অনেক গতিশীল যন্ত্র এবং কৌশল উপলব্ধ রয়েছে এবং এটি থেকে আরও ভাল রায় আবিষ্কার করা যায়৷
ঘন ঘন আইটেমসেট খনির কাজটি জটিল কারণ বহুমাত্রিক স্থানের তথ্যের বিরলতার কারণে বিমূর্তকরণের কম বা আদিম পদ্ধতিতে ডেটা আইটেমগুলির মধ্যে একটি শক্তিশালী সম্পর্ক খুঁজে পাওয়া কঠিন।
শক্তিশালী অ্যাসোসিয়েশন উচ্চ ধারণার স্তরে পাওয়া যায় যা কমনসেন্স জ্ঞানের প্রতিনিধিত্ব করতে পারে কিন্তু যা একজন ব্যবহারকারীর কাছে সাধারণ জ্ঞানের প্রতিনিধিত্ব করতে পারে তা অন্যের কাছে নতুন বলে মনে হতে পারে। সুতরাং, এটি প্রয়োজনীয় যে ডেটা মাইনিং খনি অ্যাসোসিয়েশন নিয়মগুলিকে বিমূর্তকরণের একাধিক স্তরে এবং কেবলমাত্র একাধিক বিমূর্ত স্থানগুলির মধ্যে পাস-থ্রু করার সম্ভাবনা প্রদান করে৷
ঘন ঘন আইটেমসেটের খনির জন্য নিম্নলিখিত কারণগুলি রয়েছে৷
-
অ্যাসোসিয়েশন নিয়ম তৈরি করার জন্য প্রয়োজনীয় গণনাগুলি আইটেমের সংখ্যা এবং নিয়মের জটিলতা বিবেচনা করার সাথে সাথে দ্রুতগতিতে বৃদ্ধি পায়।
-
পণ্যের ধরন সহ একটি সনাক্তকারী বৈশিষ্ট্য ছাড়া আইটেমগুলিকে অভিন্ন বলে মনে করা হয়। সমস্ত সমস্যা এই বর্ণনার সাথে মানানসই নয়৷
৷ -
বিশ্লেষণে ব্যবহার করার জন্য আইটেমগুলির সঠিক সেট নির্ধারণ করা সবচেয়ে কঠিন কাজ। আইটেমগুলিকে সাধারণীকরণ করে, কেউ নিশ্চিত করতে পারে যে বিশ্লেষণে ব্যবহৃত আইটেমগুলির ফ্রিকোয়েন্সিগুলি প্রায় একই।
-
খুব কম লেনদেনে খুব কমই ঘটে এমন আইটেম থাকলে অ্যাসোসিয়েশন নিয়ম তৈরি করা কঠিন।