ডেটা মাইনিং হল পরিসংখ্যানগত এবং গাণিতিক কৌশল সহ প্যাটার্ন শনাক্তকরণ প্রযুক্তি ব্যবহার করে সংগ্রহস্থলগুলিতে সংরক্ষিত প্রচুর পরিমাণে ডেটা স্থানান্তর করে দরকারী নতুন সম্পর্ক, নিদর্শন এবং প্রবণতাগুলি সন্ধান করার প্রক্রিয়া। এটি সন্দেহাতীত সম্পর্কগুলি আবিষ্কার করতে এবং ডেটা মালিকের জন্য যৌক্তিক এবং সহায়ক উভয়ই অভিনব পদ্ধতিতে রেকর্ডগুলিকে সংক্ষিপ্ত করার জন্য তথ্যভিত্তিক ডেটাসেটের বিশ্লেষণ৷
প্রধান চ্যালেঞ্জ হল প্রয়োজনীয় ডেটা বের করার জন্য ডেটা বিশ্লেষণ করা যা একটি সমস্যা সমাধান করতে বা কোম্পানির উন্নয়নের জন্য ব্যবহার করা যেতে পারে। ডেটা মাইন করার জন্য অনেক গতিশীল যন্ত্র এবং কৌশল উপলব্ধ রয়েছে এবং এটি থেকে আরও ভাল রায় আবিষ্কার করা যায়৷
ডেটা মাইনিংয়ের বিভিন্ন কৌশল রয়েছে যা নিম্নরূপ -
শ্রেণীবিভাগ − শ্রেণিবিন্যাস হল একটি ডেটা-মাইনিং কৌশল যা আরও দক্ষ ভবিষ্যদ্বাণী এবং বিশ্লেষণে সহায়তা করার জন্য ডেটার একটি সেটে উপাদান তৈরি করে। অত্যন্ত বিশাল ডেটাসেটের বিশ্লেষণ কার্যকর করার উদ্দেশ্যে বেশ কয়েকটি পদ্ধতি রয়েছে।
ডেটা মাইনিংয়ের সবচেয়ে গুরুত্বপূর্ণ কাজগুলির মধ্যে একটি হল শ্রেণিবিন্যাস। এটি তাদের বৈশিষ্ট্যের উপর ভিত্তি করে দৃষ্টান্তগুলিতে পূর্ব-সংজ্ঞায়িত শ্রেণী লেবেল বরাদ্দ করার একটি প্রক্রিয়াকে বোঝায়। শ্রেণিবিন্যাস এবং ক্লাস্টারিংয়ের মধ্যে একটি মিল রয়েছে, এটি দেখতে একই, তবে এটি আলাদা। শ্রেণীবিভাগ এবং ক্লাস্টারিংয়ের মধ্যে প্রধান পার্থক্য হল যে শ্রেণীবিভাগে উপাদানগুলির পূর্ব-নির্ধারিত গোষ্ঠীগুলির সদস্যতা অনুসারে তাদের সমতলকরণ জড়িত৷
ক্লাস্টারিং − অনুরূপ বস্তুর শ্রেণীতে ভৌত বা বিমূর্ত বস্তুর একটি সেটকে একত্রিত করার পর্যায়কে ক্লাস্টারিং বলা হয়। একটি ক্লাস্টার হল ডেটা অবজেক্টের একটি সেট যা একই ক্লাস্টারের মধ্যে একে অপরের মতো এবং অন্যান্য ক্লাস্টারের অবজেক্ট থেকে আলাদা। ডেটা অবজেক্টের একটি ক্লাস্টারকে বিভিন্ন অ্যাপ্লিকেশনে একটি গ্রুপ হিসাবে সম্মিলিতভাবে বিবেচনা করা যেতে পারে। ক্লাস্টার বিশ্লেষণ একটি অপরিহার্য মানব কার্যকলাপ।
রিগ্রেশন −এই পদ্ধতিগুলি এক বা একাধিক ভবিষ্যদ্বাণীকারী (স্বাধীন) ভেরিয়েবল থেকে প্রতিক্রিয়া (নির্ভরশীল) ভেরিয়েবলের মান পূর্বাভাস দিতে ব্যবহৃত হয় যেখানে ভেরিয়েবলগুলি সংখ্যাসূচক। রৈখিক, মাল্টিপল, ওয়েটেড, বহুপদী, ননপ্যারামেট্রিক এবং শক্তিশালী সহ রিগ্রেশনের বিভিন্ন রূপ রয়েছে (যখন ত্রুটিগুলি স্বাভাবিক অবস্থার শর্ত পূরণ করতে ব্যর্থ হয় বা যখন ডেটাতে উল্লেখযোগ্য আউটলায়ার থাকে) তখন শক্তিশালী কৌশলগুলি উপকারী।
বাহ্যিক সনাক্তকরণ − এই ধরনের ডেটা মাইনিং কৌশল ডেটা সেটের ডেটা আইটেমগুলির পর্যবেক্ষণের সাথে সম্পর্কিত, যা একটি প্রত্যাশিত প্যাটার্ন বা প্রত্যাশিত আচরণের সাথে মেলে না। এই কৌশলটি বিভিন্ন ডোমেনে ব্যবহার করা যেতে পারে যেমন একটি অনুপ্রবেশ, সনাক্তকরণ, জালিয়াতি সনাক্তকরণ ইত্যাদি। এটি আউটলায়ার বিশ্লেষণ বা আউটলায়ার মাইনিং নামেও পরিচিত।
ক্রমিক নিদর্শন − অনুক্রমিক প্যাটার্ন হল একটি ডেটা মাইনিং কৌশল যা অনুক্রমিক নিদর্শনগুলি খুঁজে পেতে অনুক্রমিক ডেটা গণনা করার জন্য বিশেষ। এটিতে ক্রমগুলির একটি সংগ্রহের মধ্যে আকর্ষণীয় পরবর্তীগুলি খুঁজে পাওয়া অন্তর্ভুক্ত, যেখানে একটি অনুক্রমের অংশটি দৈর্ঘ্য, সংঘটনের ফ্রিকোয়েন্সি ইত্যাদির মতো বিভিন্ন উপাদানের পরিপ্রেক্ষিতে পরিমাপ করা যেতে পারে৷