কম্পিউটার

ডেটা মাইনিংয়ে কীভাবে ব্যবস্থা গণনা করা হয়?


পরিমাপগুলিকে তিনটি উপাদানে সংগঠিত করা যেতে পারে যার মধ্যে বন্টনমূলক, বীজগণিত এবং সামগ্রিক। এটি ব্যবহৃত সমষ্টিগত ফাংশন ধরনের উপর নির্ভর করে।

বন্টনমূলক − একটি সমষ্টিগত ফাংশন বণ্টনমূলক হয় যদি এটি নিম্নরূপ একটি বিতরণ পদ্ধতিতে গণনা করা যায়। বিবেচনা করুন ডেটা এন সেটে স্বাধীন। এটি প্রতিটি পার্টিশনে পরিষেবা ব্যবহার করতে পারে, যার ফলে n সমষ্টিগত মান।

n সমষ্টিগত মানগুলিতে ফাংশন ব্যবহার করে পরিবর্তিত ফলাফলটি পুরো ডেটা সেটে (বিভাজন ছাড়াই) ফাংশনটি ব্যবহার করে প্রাপ্ত ফলাফলের মতোই হয়, ফাংশনটি বিতরণ পদ্ধতিতে মূল্যায়ন করা যেতে পারে।

উদাহরণস্বরূপ, একটি ডেটা কিউবের জন্য গণনা করা যেতে পারে প্রথমে কিউবটিকে একটি সাবকিউবের গ্রুপে বিভাজন করে, প্রতিটি সাবকিউবের জন্য গণনা() গণনা করে এবং তারপর প্রতিটি সাবকিউবের জন্য অর্জিত গণনাগুলিকে যোগ করে। অতএব, কাউন্ট() একটি বিতরণমূলক সামগ্রিক পরিষেবা।

একটি পরিমাপ বিতরণমূলক হয় যদি এটি একটি বিতরণমূলক সামগ্রিক পরিষেবা ব্যবহার করে প্রাপ্ত হয়। বিতরণমূলক ব্যবস্থাগুলি কার্যকরভাবে গণনা করা যেতে পারে কারণ সেগুলি বিতরণমূলক উপায়ে গণনা করা যেতে পারে।

বীজগণিত − একটি সমষ্টিগত ফাংশন বীজগণিত হয় যদি এটি M আর্গুমেন্ট সহ একটি বীজগণিতিক পরিষেবা দ্বারা গণনা করা যায় (যেখানে M হল একটি আবদ্ধ ধনাত্মক পূর্ণসংখ্যা), যার প্রতিটি একটি বিতরণমূলক সমষ্টি পরিষেবা ব্যবহার করে প্রাপ্ত হয়৷

উদাহরণস্বরূপ, avg() (গড়) sum()/count() দ্বারা গণনা করা যেতে পারে, যেখানে sum() এবং count() উভয়ই বিতরণমূলক সামগ্রিক পরিষেবা। একইভাবে, এটি প্রদর্শিত হতে পারে যে ন্যূনতম N() এবং সর্বোচ্চ N() (যা N ন্যূনতম এবং N সর্বাধিক মানগুলি আবিষ্কার করে, সেই অনুসারে, একটি নির্দিষ্ট সেটে) এবং মানক বিচ্যুতি() হল বীজগণিতের সমষ্টিগত পরিষেবা। একটি পরিমাপ বীজগণিত হয় যদি এটি একটি বীজগণিত সামগ্রিক পরিষেবা ব্যবহার করে অর্জিত হয়৷

সম্পূর্ণ − একটি সমষ্টিগত ফাংশন সামগ্রিক হয় যদি একটি উপ-সমষ্টিকে সংজ্ঞায়িত করার জন্য প্রয়োজনীয় স্টোরেজ আকারের উপর কোন নির্দিষ্ট আবদ্ধ না থাকে। যদি এম আর্গুমেন্ট (যেখানে M একটি ধ্রুবক) সহ একটি বীজগণিত ফাংশন চালিয়ে না যায় যা গণনাকে বর্ণনা করে।

সামগ্রিক ফাংশনের উদাহরণ যেমন মধ্যমা (), মোড (), এবং র‌্যাঙ্ক ()। একটি পরিমাপ সামগ্রিক হয় যদি এটি একটি সামগ্রিক সমষ্টি ফাংশন ব্যবহার করে অর্জিত হয়।

বেশিরভাগ বৃহৎ ডেটা কিউব অ্যাপ্লিকেশনের জন্য ডিস্ট্রিবিউটিভ এবং বীজগাণিতিক পরিমাপের কার্যকর গণনা প্রয়োজন। এর জন্য কিছু কার্যকর পদ্ধতি বিদ্যমান। বিপরীতে, সামগ্রিক পরিমাপ দক্ষতার সাথে গণনা করা জটিল। কিছু সামগ্রিক ব্যবস্থার আনুমানিক গণনা করার জন্য একটি কার্যকর পদ্ধতি, এখনও, বিদ্যমান।

উদাহরণস্বরূপ, সঠিক মধ্যক (), গণনা করার পরিবর্তে একটি বিশাল ডেটা সেটের জন্য আনুমানিক মধ্যকার মান গণনা করতে ব্যবহার করা যেতে পারে। কিছু ক্ষেত্রে, সামগ্রিক ব্যবস্থার কার্যকরী গণনার অসুবিধাগুলি কাটিয়ে উঠতে এই জাতীয় পদ্ধতিগুলি যথেষ্ট।


  1. ডাটা মাইনিং এ OLAP টুল কি কি?

  2. ওয়েব মাইনিংয়ের পদ্ধতিগুলি কী কী?

  3. স্থানীয় ডেটা মাইনিংয়ের আদিম বিষয়গুলি কী?

  4. কিভাবে metarules ডেটা মাইনিং দরকারী?