ডেটা মাইনিং হল পরিসংখ্যানগত এবং গাণিতিক কৌশল সহ প্যাটার্ন শনাক্তকরণ প্রযুক্তি ব্যবহার করে সংগ্রহস্থলগুলিতে সংরক্ষিত প্রচুর পরিমাণে ডেটা স্থানান্তর করে দরকারী নতুন সম্পর্ক, নিদর্শন এবং প্রবণতাগুলি সন্ধান করার প্রক্রিয়া। এটি সন্দেহাতীত সম্পর্কগুলি আবিষ্কার করতে এবং ডেটা মালিকের জন্য যৌক্তিক এবং সহায়ক উভয়ই অভিনব পদ্ধতিতে রেকর্ডগুলিকে সংক্ষিপ্ত করার জন্য তথ্যভিত্তিক ডেটাসেটের বিশ্লেষণ৷
ডেটা মাইনিংয়ের বিভিন্ন ধারণা রয়েছে যা নিম্নরূপ -
শ্রেণীবিভাগ − শ্রেণীবিভাগ হল এমন একটি মডেল আবিষ্কার করার পদ্ধতি যা উপাত্তের শ্রেণী বা ধারণার প্রতিনিধিত্ব করে এবং আলাদা করে, মডেল ব্যবহার করে বস্তুর শ্রেণী ভবিষ্যদ্বাণী করতে সক্ষম হওয়ার উদ্দেশ্যে যার শ্রেণী লেবেল বেনামী। প্রাপ্ত মডেলটি প্রশিক্ষণ রেকর্ডের একটি গ্রুপের বিশ্লেষণের উপর ভিত্তি করে (অর্থাৎ, ডেটা অবজেক্ট যার ক্লাস লেবেল পরিচিত)।
ভবিষ্যদ্বাণী − ভবিষ্যদ্বাণী শ্রেণীবিভাগের মতোই, ভবিষ্যদ্বাণী ছাড়া, ফলাফলগুলি ভবিষ্যতে ভুলভাবে উপস্থাপন করা হয়৷
ব্যবসায় এবং গবেষণায় ভবিষ্যদ্বাণী ফাংশনের উদাহরণগুলির মধ্যে রয়েছে −
-
এটি ভবিষ্যতে তিন মাসের মধ্যে একটি স্টকের মূল্য ভবিষ্যদ্বাণী করা যেতে পারে।
-
গতিসীমা বাড়ানো হলে আগামী বছর ট্রাফিক মৃত্যুর শতকরা হার বৃদ্ধির পূর্বাভাস দেওয়া যেতে পারে।
-
এটি দলের পরিসংখ্যানের চিঠিপত্রের ভিত্তিতে এই পতনের বেসবল ওয়ার্ল্ড সিরিজের বিজয়ীর ভবিষ্যদ্বাণী করা যেতে পারে৷
-
এটি ভবিষ্যদ্বাণী করা যেতে পারে যে ওষুধ আবিষ্কারের একটি নির্দিষ্ট অণু একটি ফার্মাসিউটিক্যাল কোম্পানির জন্য একটি সাশ্রয়ী নতুন ওষুধ শুরু করবে।
অ্যাসোসিয়েশন নিয়ম এবং সুপারিশ সিস্টেম − অ্যাসোসিয়েশনের নিয়ম, বা অ্যাফিনিটি বিশ্লেষণ, বড় ডাটাবেসের আইটেমগুলির মধ্যে এই ধরনের সাধারণ অ্যাসোসিয়েশন প্যাটার্নগুলি খুঁজে বের করার জন্য ডিজাইন করা হয়েছে। নিয়ম বিভিন্ন পদ্ধতি ব্যবহার করা যেতে পারে. উদাহরণস্বরূপ, মুদি দোকানগুলি পণ্য বসানোর জন্য এই ধরনের তথ্য ব্যবহার করতে পারে।
তারা সাপ্তাহিক প্রচারমূলক অফার বা বান্ডিল পণ্যগুলির জন্য নিয়মগুলি ব্যবহার করতে পারে৷ একটানা হাসপাতালে ভর্তির সময় রোগীদের উপসর্গগুলির উপর একটি হাসপাতালের ডাটাবেস থেকে প্রাপ্ত অ্যাসোসিয়েশন নিয়মগুলি ফিরে আসা রোগীদের ভবিষ্যতের উপসর্গগুলির পূর্বাভাস দিতে সাহায্য করতে "কোন উপসর্গের পরে অন্য কোন উপসর্গ" খুঁজে পেতে সাহায্য করতে পারে।
ডেটা হ্রাস − বিপুল পরিমাণ ডাটাবেসে নির্বাচিত ডেটাতে ডেটা মাইনিং ব্যবহার করা হয়। যখন বিপুল পরিমাণ রেকর্ডে ডেটা বিশ্লেষণ এবং মাইনিং সম্পন্ন করা হয় তখন এটি প্রক্রিয়া করতে খুব বেশি সময় লাগে, যা এটিকে অসম্ভব এবং অসম্ভাব্য করে তোলে৷
এটি ডেটা বিশ্লেষণের জন্য প্রক্রিয়াকরণের সময়কে কমাতে পারে, ডেটা হ্রাস কৌশলগুলি মূল ডেটার অখণ্ডতা বজায় রেখে ভলিউমের তুলনায় অনেক ছোট ডেটাসেটের একটি কম উপস্থাপনা পেতে ব্যবহৃত হয়। ডেটা হ্রাস করার মাধ্যমে, ডেটা মাইনিং প্রক্রিয়ার দক্ষতা উন্নত হয় যা একই বিশ্লেষণাত্মক ফলাফল তৈরি করে৷
ডেটা হ্রাসের লক্ষ্য এটিকে আরও কম্প্যাক্টভাবে সংজ্ঞায়িত করা। যখন ডেটার আকার ছোট হয়, তখন পরিপক্ক এবং গণনাগতভাবে উচ্চ-মূল্যের অ্যালগরিদমগুলি ব্যবহার করা সহজ হয়৷ ডেটা হ্রাস সারি সংখ্যা (রেকর্ড) বা কলাম সংখ্যার শর্তাবলী (মাত্রা) পরিপ্রেক্ষিতে হতে পারে।