ডেটা ডিসক্রেটাইজেশন কি?

ডেটা ডিক্রেটাইজেশন কৌশলগুলি একটি প্রদত্ত অবিচ্ছিন্ন বৈশিষ্ট্যের জন্য মানের সংখ্যা হ্রাস করতে ব্যবহার করা যেতে পারে বৈশিষ্ট্যের পরিসরকে বিরতিতে ভাগ করে। প্রকৃত ডেটা মান পুনরুদ্ধার করতে ইন্টারভাল লেবেল ব্যবহার করা যেতে পারে। এটি অল্প সংখ্যক ব্যবধান লেবেল সহ একটি অবিচ্ছিন্ন বৈশিষ্ট্যের একাধিক মান পুনরুদ্ধার করতে পারে তাই মূল তথ্য হ্রাস করে এবং সরল করে৷

এটি খনির ফলাফলের একটি সংক্ষিপ্ত, সহজে ব্যবহারযোগ্য, জ্ঞান-স্তরের প্রতিনিধিত্বের দিকে নিয়ে যায়। বিচ্ছিন্নকরণ কৌশলগুলিকে শ্রেণীবদ্ধ করা যেতে পারে তা নির্ভর করে কীভাবে বিচক্ষণতা প্রয়োগ করা হয়, যেমন এটি শ্রেণী ডেটা ব্যবহার করে বা এটি কোন দিকে এগিয়ে যায় (যেমন, উপরে-নিচে বনাম নীচে-আপ)। যদি বিচ্ছিন্নকরণ প্রক্রিয়াটি শ্রেণী ডেটা ব্যবহার করে, তবে এটি বলতে পারে এটি তত্ত্বাবধানে বিচ্ছিন্নকরণ। অতএব, এটি তত্ত্বাবধানহীন।

পুরো অ্যাট্রিবিউট রেঞ্জকে বিভক্ত করার জন্য প্রথমে এক বা কয়েকটি পয়েন্ট (বিভক্ত পয়েন্ট বা কাটা পয়েন্ট হিসাবে পরিচিত) আবিষ্কার করার মাধ্যমে প্রক্রিয়াটি শুরু হয় এবং তারপরে ফলাফল ব্যবধানে এটি পুনরাবৃত্তিমূলকভাবে চালিয়ে যান, এটি টপ-ডাউন ডিসক্রিটাইজেশন বা বিভাজন হিসাবে পরিচিত।

বটম-আপ ডিস্ক্রিটাইজেশন বা একত্রীকরণে, এটি সম্ভাব্য বিভক্ত-পয়েন্ট হিসাবে অবিচ্ছিন্ন সমস্ত মান বিবেচনা করে শুরু করতে পারে, ব্যবধান গঠনের জন্য আশেপাশের মানগুলিকে একত্রিত করে কিছুকে সরিয়ে দেয় এবং তারপরে ফলাফলের ব্যবধানে এই প্রক্রিয়াটি পুনরাবৃত্তিমূলকভাবে প্রয়োগ করে। বৈশিষ্ট্যের মানগুলির একটি শ্রেণিবদ্ধ বা বহু-রেজোলিউশন বিভাজন সমর্থন করার জন্য একটি বৈশিষ্ট্যের উপর বিচক্ষণতা পুনরাবৃত্তিমূলকভাবে প্রয়োগ করা যেতে পারে, যা একটি ধারণা শ্রেণিবিন্যাস হিসাবে উল্লেখ করা হয়৷

ধারণার শ্রেণিবিন্যাসগুলি বিমূর্ততার একাধিক স্তরে খনির জন্য উপযোগী। একটি প্রদত্ত সংখ্যাসূচক বৈশিষ্ট্যের জন্য একটি ধারণা শ্রেণিবিন্যাস বৈশিষ্ট্যের একটি বিচক্ষণতা উপস্থাপন করে। ধারণা শ্রেণিবিন্যাস উচ্চ-স্তরের ধারণা (যুব, মধ্যবয়সী, বা সিনিয়র সহ) নিম্ন-স্তরের ধারণাগুলি (বৈশিষ্ট্যের বয়সের জন্য সংখ্যাসূচক মান সহ) সংগ্রহ এবং পুনরুদ্ধার করে ডেটা হ্রাস করতে ব্যবহার করা যেতে পারে। যদিও এই ধরনের ডেটা সাধারণীকরণ দ্বারা বিশদটি লুকানো থাকে, তবে সাধারণীকৃত ডেটা কার্যকর করা আরও অর্থপূর্ণ এবং সহজ হতে পারে।

এটি বেশ কয়েকটি খনির কাজের মধ্যে ডেটা মাইনিং ফলাফলের একটি ধারাবাহিক বিবরণ প্রদান করে, যা একটি সাধারণ প্রয়োজন। এছাড়াও, একটি হ্রাসকৃত ডেটা সেটে খননের জন্য কম ইনপুট/আউটপুট ক্রিয়াকলাপ প্রয়োজন এবং এটি একটি উচ্চতর, অ-জেনারালাইজড ডেটা সেটে মাইনিংয়ের চেয়ে বেশি সক্ষম। এই সুবিধাগুলির কারণে, বিচক্ষণতা কৌশল এবং ধারণা শ্রেণিবিন্যাস সাধারণত ডেটা মাইনিং এর আগে একটি প্রিপ্রসেসিং পদক্ষেপ হিসাবে ব্যবহার করা হয়, খনির সময় না করে।

সাংখ্যিক বৈশিষ্ট্যগুলির জন্য স্বয়ংক্রিয়ভাবে ধারণার শ্রেণিবিন্যাসকে স্বয়ংক্রিয়ভাবে তৈরি বা গতিশীলভাবে পরিমার্জন করতে বেশ কয়েকটি বিচক্ষণ পদ্ধতি ব্যবহার করা যেতে পারে। উপরন্তু, শ্রেণীবদ্ধ বৈশিষ্ট্যের জন্য অনেক শ্রেণিবিন্যাস ডাটাবেস ডিজাইনের মধ্যে নিহিত থাকে এবং স্কিমা সংজ্ঞা স্তরে স্বয়ংক্রিয়ভাবে উপস্থাপন করা যেতে পারে।