ডেটা মাইনিং হল পরিসংখ্যানগত এবং গাণিতিক কৌশল সহ প্যাটার্ন শনাক্তকরণ প্রযুক্তি ব্যবহার করে সংগ্রহস্থলগুলিতে সংরক্ষিত প্রচুর পরিমাণে ডেটা স্থানান্তর করে দরকারী নতুন পারস্পরিক সম্পর্ক, নিদর্শন এবং প্রবণতা খুঁজে বের করার প্রক্রিয়া। এটি সন্দেহাতীত সম্পর্কগুলি আবিষ্কার করতে এবং ডেটা মালিকের জন্য যৌক্তিক এবং সহায়ক উভয়ই অভিনব পদ্ধতিতে রেকর্ডগুলিকে সংক্ষিপ্ত করার জন্য তথ্যভিত্তিক ডেটাসেটের বিশ্লেষণ৷
এটি ডাটাবেসের মালিকের জন্য পরিষ্কার এবং উপকারী ফলাফল পেতে প্রথমে অজানা নিয়মিততা বা সম্পর্কগুলি খুঁজে পাওয়ার জন্য উচ্চ পরিমাণে তথ্যের নির্বাচন, অন্বেষণ এবং মডেলিংয়ের পদ্ধতি।
ডেটা মাইনিং ডেটা সায়েন্সের মতো। এটি একটি ব্যক্তি দ্বারা বাহিত হয়, একটি নির্দিষ্ট পরিস্থিতিতে, একটি নির্দিষ্ট ডেটা সেটে, একটি উদ্দেশ্য সহ। এই পর্বে টেক্সট মাইনিং, ওয়েব মাইনিং, অডিও এবং ভিডিও মাইনিং, সচিত্র ডেটা মাইনিং এবং সোশ্যাল মিডিয়া মাইনিং সহ বিভিন্ন ধরণের পরিষেবা রয়েছে। এটি সফ্টওয়্যারের মাধ্যমে সম্পন্ন হয় যা সহজ বা অত্যন্ত নির্দিষ্ট।
ডেটা মাইনিং আউটসোর্সিং করে, কম অপারেশন খরচে সমস্ত কাজ দ্রুত করা যায়। নির্দিষ্ট সংস্থাগুলি ডেটা সংরক্ষণ করতে নতুন প্রযুক্তি ব্যবহার করতে পারে যা ম্যানুয়ালি খুঁজে পাওয়া অসম্ভব। একাধিক প্ল্যাটফর্মে প্রচুর পরিমাণে ডেটা উপলব্ধ রয়েছে, তবে খুব সীমিত জ্ঞান অ্যাক্সেসযোগ্য৷
৷ডেটাতে উপযোগী নিদর্শন খোঁজার পদ্ধতির বিভিন্ন নাম দেওয়া হয়েছে, যার মধ্যে রয়েছে ডেটা মাইনিং, জ্ঞান আহরণ, ডেটা আবিষ্কার, ডেটা সংগ্রহ, ডেটা প্রত্নতত্ত্ব এবং ডেটা প্যাটার্ন প্রক্রিয়াকরণ। ডেটা মাইনিং পরিসংখ্যানবিদ, ডেটা বিশ্লেষক এবং ম্যানেজমেন্ট ইনফরমেশন সিস্টেম (MIS) সম্প্রদায়ের দ্বারা ব্যবহৃত হয়েছে৷
এটি ডাটাবেস এলাকায় জনপ্রিয়তাও উন্নত করেছে। ডেটাবেসগুলিতে জ্ঞান আবিষ্কারের প্রক্রিয়াটি 1989 সালে প্রথম KDD কর্মশালায় (পিয়েটস্কি-শাপিরো 1991) আবিষ্কার করা হয়েছিল যে জ্ঞানটি ডেটা-চালিত আবিষ্কারের শেষ পণ্য। এটি কৃত্রিম বুদ্ধিমত্তা এবং মেশিন লার্নিং এলাকায় জনপ্রিয় হয়েছে।
KDD ডেটা থেকে দরকারী জ্ঞান আবিষ্কারের সম্পূর্ণ প্রক্রিয়াকে সংজ্ঞায়িত করে, এবং ডেটা মাইনিং এই প্রক্রিয়ার একটি নির্দিষ্ট ধাপ সংজ্ঞায়িত করে। ডেটা মাইনিং হল ডেটা থেকে প্যাটার্ন বের করার জন্য নির্দিষ্ট অ্যালগরিদমের প্রয়োগ। KDD প্রক্রিয়া এবং ডেটা-মাইনিং ধাপের মধ্যে পার্থক্য (প্রক্রিয়ার মধ্যে) এই বস্তুর একটি কেন্দ্রীয় বিন্দু।
ডেটা প্রস্তুতি, ডেটা নির্বাচন, ডেটা পরিষ্কার করা, উপযুক্ত পূর্ব জ্ঞানের অন্তর্ভুক্তি এবং খনির ফলাফলের সঠিক বিশ্লেষণ সহ KDD প্রক্রিয়ার পরবর্তী পদক্ষেপগুলি ডেটা থেকে প্রয়োজনীয় জ্ঞান পরিবর্তিত হওয়ার জন্য গুরুত্বপূর্ণ৷
ডেটা-মাইনিং কৌশলগুলির অন্ধ প্রয়োগ (পরিসংখ্যান সাহিত্যে ডেটা ড্রেজিং হিসাবে সঠিকভাবে অস্বীকৃত) একটি বিপজ্জনক কার্যকলাপ হতে পারে, যা সহজেই অর্থহীন এবং অবৈধ ডিজাইনের আবিষ্কারের দিকে পরিচালিত করে৷