ডেটা মাইনিং একটি বৃহৎ পরিমাণ ডাটাবেসে নির্বাচিত ডেটাতে প্রয়োগ করা হয়। যখন বিপুল পরিমাণ ডেটার উপর ডেটা বিশ্লেষণ এবং মাইনিং করা হয় তখন এটি প্রক্রিয়া করতে খুব দীর্ঘ সময় লাগে, যা এটিকে অবাস্তব এবং অসম্ভাব্য করে তোলে। এটি ডেটা বিশ্লেষণের জন্য প্রক্রিয়াকরণের সময়কে হ্রাস করতে পারে, ডেটা হ্রাস কৌশলগুলি মূল ডেটার অখণ্ডতা বজায় রেখে ভলিউমের তুলনায় অনেক ছোট ডেটাসেটের একটি হ্রাসকৃত উপস্থাপনা পেতে ব্যবহৃত হয়। ডেটা হ্রাস করার মাধ্যমে, ডেটা মাইনিং প্রক্রিয়ার দক্ষতা উন্নত হয় যা একই বিশ্লেষণাত্মক ফলাফল তৈরি করে৷
ডেটা হ্রাসের লক্ষ্য এটিকে আরও কম্প্যাক্টভাবে সংজ্ঞায়িত করা। ডেটার আকার ছোট হলে, পরিশীলিত এবং গণনাগতভাবে উচ্চ-মূল্যের অ্যালগরিদম প্রয়োগ করা সহজ। ডেটা হ্রাস সারি সংখ্যা (রেকর্ড) বা কলাম সংখ্যার শর্তাবলী (মাত্রা) পরিপ্রেক্ষিতে হতে পারে।
ডেটা কমানোর জন্য বিভিন্ন কৌশল রয়েছে যা নিম্নরূপ -
ডেটা কিউব এগ্রিগেশন − এই পদ্ধতিতে, যেখানে ডেটা কিউব তৈরিতে ডেটার জন্য অ্যাগ্রিগেশন অপারেশন ব্যবহার করা হয়। এই ডেটাতে 2002 থেকে 2004 সালের জন্য প্রতি ত্রৈমাসিকে সমস্ত ইলেকট্রনিক্স বিক্রয় অন্তর্ভুক্ত রয়েছে। এটি প্রতি ত্রৈমাসিকে মোটের পরিবর্তে বার্ষিক বিক্রয় (প্রতি বছরে মোট) আগ্রহী। এইভাবে ডেটা একত্রিত করা যেতে পারে যাতে ফলস্বরূপ ডেটা প্রতি ত্রৈমাসিকের পরিবর্তে প্রতি বছর মোট বিক্রয় সংক্ষিপ্ত করে। ফলাফলের ডেটা সেটটি আয়তনে ছোট, বিশ্লেষণ কাজের জন্য প্রয়োজনীয় ডেটার ক্ষতি ছাড়াই৷
অ্যাট্রিবিউট সাবসেট নির্বাচন - এই পদ্ধতিতে, যেখানে অপ্রাসঙ্গিক, দুর্বলভাবে প্রাসঙ্গিক, বা অপ্রয়োজনীয় বৈশিষ্ট্য বা মাত্রাগুলি আবিষ্কার এবং মুছে ফেলা যেতে পারে। বিশ্লেষণের জন্য ডেটা সেটগুলিতে শত শত বৈশিষ্ট্য অন্তর্ভুক্ত থাকতে পারে, যার মধ্যে কিছু খনির কাজের সাথে অপ্রাসঙ্গিক বা অপ্রয়োজনীয় হতে পারে। উদাহরণ স্বরূপ, যদি কাজটি গ্রাহকদের সাজানো হয় যে তারা বিক্রয়ের বিজ্ঞপ্তি পাওয়ার পরে অল ইলেকট্রনিক্স থেকে একটি জনপ্রিয় নতুন সিডি ক্রয় করতে পারে কিনা, তাহলে গ্রাহকের টেলিফোন নম্বরের মতো বৈশিষ্ট্যগুলি অপ্রাসঙ্গিক হতে পারে, যেমন বৈশিষ্ট্যগুলির বিপরীতে বয়স বা সঙ্গীত_রুচি।
মাত্রিকতা হ্রাস − ডেটা সেটের আকার কমাতে এনকোডিং প্রক্রিয়া ব্যবহার করা হয়। মাত্রিকতা হ্রাসে, মূল ডেটার একটি হ্রাস বা "সংকুচিত" উপস্থাপনা পেতে ডেটা এনকোডিং বা রূপান্তর প্রয়োগ করা হয়। যদি কোনো তথ্যের ক্ষতি ছাড়াই সংকুচিত ডেটা থেকে মূল ডেটা পুনর্গঠন করা যায়, তবে ডেটা হ্রাসকে ক্ষতিহীন বলা হয়।
সংখ্যা হ্রাস − ডেটা পুনরুদ্ধার বা ভবিষ্যদ্বাণী করা হয় বিকল্প, ছোট ডেটা উপস্থাপনা সহ প্যারামেট্রিক মডেল (যা প্রকৃত ডেটার পরিবর্তে শুধুমাত্র মডেল প্যারামিটার সংরক্ষণ করতে হয়) অথবা ক্লাস্টারিং, স্যাম্পলিং এবং হিস্টোগ্রামের ব্যবহার সহ ননপ্যারামেট্রিক পদ্ধতি।
বিবেচনা এবং ধারণা শ্রেণিবিন্যাস প্রজন্ম − এই পদ্ধতিতে, যেখানে বৈশিষ্ট্যগুলির জন্য কাঁচা ডেটা মানগুলি রেঞ্জ বা উচ্চতর ধারণাগত স্তর দ্বারা প্রতিস্থাপিত হয়। ডেটা ডিক্রেটাইজেশন হল সংখ্যা হ্রাসের একটি রূপ যা ধারণা শ্রেণিবিন্যাসের স্বয়ংক্রিয় উৎপাদনের জন্য খুবই উপকারী। বিচক্ষণতা এবং ধারণা শ্রেণিবিন্যাস জেনারেশন ডেটা মাইনিংয়ের জন্য গতিশীল সরঞ্জাম, যাতে তারা বিমূর্ততার বিভিন্ন স্তরে ডেটা মাইনিং সক্ষম করে।