ডাটা প্রি-প্রসেসিং এর সাথে জড়িত প্রধান ধাপগুলো আছে, যথা, ডাটা ক্লিনিং, ডাটা ইন্টিগ্রেশন, ডাটা রিডাকশন, এবং ডাটা ট্রান্সফর্মেশন নিম্নরূপ −
ডেটা ক্লিনিং − ডেটা ক্লিনিং রুটিনগুলি অনুপস্থিত মানগুলি পূরণ করে, কোলাহলপূর্ণ তথ্যকে মসৃণ করে, বহিরাগতদের সনাক্ত বা নির্মূল করে এবং বিচ্যুতি সমাধান করে তথ্য "পরিষ্কার" করতে কাজ করে। ব্যবহারকারীরা যদি বোঝে যে ডেটা নোংরা, তাহলে তারা কিছু ডেটা মাইনিং এর ফলাফলের উপর বিশ্বাস করবে না যা ব্যবহার করা হয়েছে।
অধিকন্তু, নোংরা তথ্য খনির পর্যায়ে বিভ্রান্তি সৃষ্টি করতে পারে, ফলে অস্থির আউটপুট হয়। কিছু খনির রুটিনে অসম্পূর্ণ বা গোলমালপূর্ণ তথ্য মোকাবেলার জন্য কিছু পর্যায় রয়েছে, সেগুলি সর্বদা শক্তিশালী হয় না। পরিবর্তে, তারা মডেলিং করা ফাংশনের তথ্যের অতিরিক্ত ফিটিং প্রতিরোধে মনোনিবেশ করতে পারে।
ডেটা ইন্টিগ্রেশন − ডেটা ইন্টিগ্রেশন হল বিভিন্ন ভিন্ন উৎস থেকে ডেটা একত্রিত করার পদ্ধতি। ডেটা ইন্টিগ্রেশন করার সময়, এটি অবশ্যই ডেটা রিডানডেন্সি, অসঙ্গতি, ডুপ্লিসিটি ইত্যাদির উপর কাজ করতে হবে৷ ডেটা মাইনিং-এ, ডেটা ইন্টিগ্রেশন হল একটি রেকর্ড প্রিপ্রসেসিং পদ্ধতি যার মধ্যে কয়েকটি ভিন্ন ভিন্ন ডেটা উত্স থেকে ডেটা একত্রিত করে একটি সমন্বিত ডেটা বজায় রাখা এবং একটি ইউনিফাইড প্রদান করা অন্তর্ভুক্ত৷ ডেটার দৃষ্টিকোণ।
স্বাস্থ্যসেবা শিল্পে ডেটা ইন্টিগ্রেশন বিশেষভাবে গুরুত্বপূর্ণ। একাধিক রোগীর ডেটা এবং ক্লিনিক থেকে সমন্বিত ডেটা উপকারী ডেটার একটি পৃথক দৃষ্টিভঙ্গিতে একাধিক সিস্টেম থেকে ডেটা একীভূত করে চিকিৎসা ব্যাধি এবং রোগগুলি সনাক্ত করতে চিকিত্সকদের সহায়তা করে যা থেকে উপকারী অন্তর্দৃষ্টি নেওয়া যেতে পারে।
ডেটা হ্রাস - ডেটা হ্রাসের উদ্দেশ্য হল এটিকে আরও কম্প্যাক্টভাবে সংজ্ঞায়িত করা। ডেটার আকার ছোট হলে, পরিশীলিত এবং গণনামূলকভাবে উচ্চ-মূল্যের অ্যালগরিদম ব্যবহার করা সহজ। ডেটা হ্রাস একাধিক সারি (রেকর্ড) বা একাধিক কলামের শর্তাবলী (মাত্রা) এর পরিপ্রেক্ষিতে হতে পারে।
মাত্রিকতা হ্রাসে, প্রাথমিক ডেটার একটি হ্রাস বা "সংকুচিত" বিবরণ অর্জন করতে ডেটা এনকোডিং স্কিমগুলি ব্যবহার করা হয়। উদাহরণগুলির মধ্যে রয়েছে ডেটা কম্প্রেশন পদ্ধতি (যেমন, তরঙ্গায়িত রূপান্তর এবং প্রধান উপাদান বিশ্লেষণ), বৈশিষ্ট্য উপসেট নির্বাচন (যেমন, অপ্রাসঙ্গিক বৈশিষ্ট্যগুলি অপসারণ করা), এবং বৈশিষ্ট্য নির্মাণ (যেমন, যেখানে প্রাথমিক সেট থেকে আরও উপকারী বৈশিষ্ট্যগুলির একটি ছোট সেট পরিবর্তন করা হয়)।
সংখ্যা হ্রাসে, প্যারামেট্রিক মডেল যেমন রিগ্রেশন বা লগ-লিনিয়ার মডেল বা হিস্টোগ্রাম, ক্লাস্টার, স্যাম্পলিং, বা ডেটা অ্যাগ্রিগেশনের মতো ননপ্যারামেট্রিক মডেলগুলি ব্যবহার করে বিকল্প, ছোট বর্ণনার মাধ্যমে ডেটা পুনরুদ্ধার করা হয়।
ডেটা রূপান্তর − ডেটা ট্রান্সফরমেশনে, যেখানে ডেটা রূপান্তরিত হয় বা সারাংশ বা একত্রীকরণ ক্রিয়াকলাপ সম্পাদন করে খনির জন্য প্রযোজ্য ফর্মগুলিতে লিঙ্ক করা হয়। ডেটা ট্রান্সফরমেশনে, এটি −
অন্তর্ভুক্ত করেমসৃণ - এটি ডেটা থেকে শব্দ অপসারণ করতে কাজ করতে পারে। এই ধরনের কৌশলগুলির মধ্যে রয়েছে বিনিং, রিগ্রেশন এবং ক্লাস্টারিং।
সমষ্টি - একত্রীকরণে, যেখানে সারাংশ বা একত্রীকরণ পরিষেবাগুলি ডেটাতে ব্যবহৃত হয়৷ উদাহরণস্বরূপ, দৈনিক বিক্রয় ডেটা মাসিক এবং বার্ষিক মোট পরিমাণ গণনা করতে একত্রিত করা যেতে পারে। এই পদ্ধতিটি সাধারণত বিভিন্ন গ্রানুলিটিতে রেকর্ডের বিশ্লেষণের জন্য একটি ডেটা কিউব তৈরিতে ব্যবহৃত হয়।