কম্পিউটার

ডেটা প্রিপ্রসেসিং এর কাজগুলি কি কি?


ডাটা প্রি-প্রসেসিং এর সাথে জড়িত প্রধান ধাপগুলো আছে, যথা, ডাটা ক্লিনিং, ডাটা ইন্টিগ্রেশন, ডাটা রিডাকশন, এবং ডাটা ট্রান্সফর্মেশন নিম্নরূপ −

ডেটা ক্লিনিং − ডেটা ক্লিনিং রুটিনগুলি অনুপস্থিত মানগুলি পূরণ করে, কোলাহলপূর্ণ তথ্যকে মসৃণ করে, বহিরাগতদের সনাক্ত বা নির্মূল করে এবং বিচ্যুতি সমাধান করে তথ্য "পরিষ্কার" করতে কাজ করে। ব্যবহারকারীরা যদি বোঝে যে ডেটা নোংরা, তাহলে তারা কিছু ডেটা মাইনিং এর ফলাফলের উপর বিশ্বাস করবে না যা ব্যবহার করা হয়েছে।

অধিকন্তু, নোংরা তথ্য খনির পর্যায়ে বিভ্রান্তি সৃষ্টি করতে পারে, ফলে অস্থির আউটপুট হয়। কিছু খনির রুটিনে অসম্পূর্ণ বা গোলমালপূর্ণ তথ্য মোকাবেলার জন্য কিছু পর্যায় রয়েছে, সেগুলি সর্বদা শক্তিশালী হয় না। পরিবর্তে, তারা মডেলিং করা ফাংশনের তথ্যের অতিরিক্ত ফিটিং প্রতিরোধে মনোনিবেশ করতে পারে।

ডেটা ইন্টিগ্রেশন − ডেটা ইন্টিগ্রেশন হল বিভিন্ন ভিন্ন উৎস থেকে ডেটা একত্রিত করার পদ্ধতি। ডেটা ইন্টিগ্রেশন করার সময়, এটি অবশ্যই ডেটা রিডানডেন্সি, অসঙ্গতি, ডুপ্লিসিটি ইত্যাদির উপর কাজ করতে হবে৷ ডেটা মাইনিং-এ, ডেটা ইন্টিগ্রেশন হল একটি রেকর্ড প্রিপ্রসেসিং পদ্ধতি যার মধ্যে কয়েকটি ভিন্ন ভিন্ন ডেটা উত্স থেকে ডেটা একত্রিত করে একটি সমন্বিত ডেটা বজায় রাখা এবং একটি ইউনিফাইড প্রদান করা অন্তর্ভুক্ত৷ ডেটার দৃষ্টিকোণ।

স্বাস্থ্যসেবা শিল্পে ডেটা ইন্টিগ্রেশন বিশেষভাবে গুরুত্বপূর্ণ। একাধিক রোগীর ডেটা এবং ক্লিনিক থেকে সমন্বিত ডেটা উপকারী ডেটার একটি পৃথক দৃষ্টিভঙ্গিতে একাধিক সিস্টেম থেকে ডেটা একীভূত করে চিকিৎসা ব্যাধি এবং রোগগুলি সনাক্ত করতে চিকিত্সকদের সহায়তা করে যা থেকে উপকারী অন্তর্দৃষ্টি নেওয়া যেতে পারে।

ডেটা হ্রাস - ডেটা হ্রাসের উদ্দেশ্য হল এটিকে আরও কম্প্যাক্টভাবে সংজ্ঞায়িত করা। ডেটার আকার ছোট হলে, পরিশীলিত এবং গণনামূলকভাবে উচ্চ-মূল্যের অ্যালগরিদম ব্যবহার করা সহজ। ডেটা হ্রাস একাধিক সারি (রেকর্ড) বা একাধিক কলামের শর্তাবলী (মাত্রা) এর পরিপ্রেক্ষিতে হতে পারে।

মাত্রিকতা হ্রাসে, প্রাথমিক ডেটার একটি হ্রাস বা "সংকুচিত" বিবরণ অর্জন করতে ডেটা এনকোডিং স্কিমগুলি ব্যবহার করা হয়। উদাহরণগুলির মধ্যে রয়েছে ডেটা কম্প্রেশন পদ্ধতি (যেমন, তরঙ্গায়িত রূপান্তর এবং প্রধান উপাদান বিশ্লেষণ), বৈশিষ্ট্য উপসেট নির্বাচন (যেমন, অপ্রাসঙ্গিক বৈশিষ্ট্যগুলি অপসারণ করা), এবং বৈশিষ্ট্য নির্মাণ (যেমন, যেখানে প্রাথমিক সেট থেকে আরও উপকারী বৈশিষ্ট্যগুলির একটি ছোট সেট পরিবর্তন করা হয়)।

সংখ্যা হ্রাসে, প্যারামেট্রিক মডেল যেমন রিগ্রেশন বা লগ-লিনিয়ার মডেল বা হিস্টোগ্রাম, ক্লাস্টার, স্যাম্পলিং, বা ডেটা অ্যাগ্রিগেশনের মতো ননপ্যারামেট্রিক মডেলগুলি ব্যবহার করে বিকল্প, ছোট বর্ণনার মাধ্যমে ডেটা পুনরুদ্ধার করা হয়।

ডেটা রূপান্তর − ডেটা ট্রান্সফরমেশনে, যেখানে ডেটা রূপান্তরিত হয় বা সারাংশ বা একত্রীকরণ ক্রিয়াকলাপ সম্পাদন করে খনির জন্য প্রযোজ্য ফর্মগুলিতে লিঙ্ক করা হয়। ডেটা ট্রান্সফরমেশনে, এটি −

অন্তর্ভুক্ত করে

মসৃণ - এটি ডেটা থেকে শব্দ অপসারণ করতে কাজ করতে পারে। এই ধরনের কৌশলগুলির মধ্যে রয়েছে বিনিং, রিগ্রেশন এবং ক্লাস্টারিং।

সমষ্টি - একত্রীকরণে, যেখানে সারাংশ বা একত্রীকরণ পরিষেবাগুলি ডেটাতে ব্যবহৃত হয়৷ উদাহরণস্বরূপ, দৈনিক বিক্রয় ডেটা মাসিক এবং বার্ষিক মোট পরিমাণ গণনা করতে একত্রিত করা যেতে পারে। এই পদ্ধতিটি সাধারণত বিভিন্ন গ্রানুলিটিতে রেকর্ডের বিশ্লেষণের জন্য একটি ডেটা কিউব তৈরিতে ব্যবহৃত হয়।


  1. ডেটা মাইনিং এর কৌশল কি কি?

  2. ডেটা মাইনিং ইন্টারফেস কি?

  3. ডেটা ইন্টিগ্রিটি কত প্রকার?

  4. স্টেগানোগ্রাফির প্রয়োগ কী?