কম্পিউটার

বড় ডাটাবেসে পরিসংখ্যানগত ব্যবস্থা কি?


রিলেশনাল ডাটাবেস সিস্টেম পাঁচটি বিল্ট-ইন অ্যাগ্রিগেট ফাংশন সমর্থন করে যেমন count(), sum(), avg(), max() এবং min()। এই সমষ্টিগত ফাংশনগুলি বহুমাত্রিক তথ্যের বর্ণনামূলক খনির মৌলিক ব্যবস্থা হিসাবে ব্যবহার করা যেতে পারে। দুটি বর্ণনামূলক পরিসংখ্যানগত ব্যবস্থা রয়েছে যেমন কেন্দ্রীয় প্রবণতার পরিমাপ এবং ডেটা বিচ্ছুরণের পরিমাপ উচ্চ বহুমাত্রিক ডেটাবেসে কার্যকরভাবে ব্যবহার করা যেতে পারে।

কেন্দ্রীয় প্রবণতার পরিমাপ − কেন্দ্রীয় প্রবণতার পরিমাপ যেমন গড়, মধ্য, মোড এবং মধ্য-পরিসর।

মানে − গাণিতিক গড় মূল্যায়ন করা হয় কেবলমাত্র সমস্ত মান একসাথে সন্নিবেশ করে এবং মানের সংখ্যা দ্বারা বিভক্ত করে। এটি প্রতিটি একক মান থেকে ডেটা ব্যবহার করে। যাক x1 , x2 ,... xn এন মান বা বেতনের মত পর্যবেক্ষণের সেট হতে হবে। এই মানের সেটের গড় হল

$$\mathrm{X^\prime\:=\:\frac{\sum_{i=1}^N\:X_i}{N}\:=\:\frac{X_1+X_2\:\dotsm\:X_n}{N}}$$

এটি একত্রিত সমষ্টিগত ফাংশনের সাথে মিলে যায়, গড় (এভিজি()) রিলেশনাল ডাটাবেস সিস্টেমে সমর্থিত। বেশ কয়েকটি ডেটা কিউবে, যোগফল এবং গণনা প্রাক-গণনায় সংরক্ষিত হয়। অতএব, গড়ের উৎপত্তি সোজা।

$\mathrm{গড়\:=\:\frac{sum}{count}}$

মাঝারি − মানের বণ্টনের উপর ভিত্তি করে মধ্যক গণনার জন্য দুটি পদ্ধতি রয়েছে।

যদি x1 , x2 , .... xn অবরোহ ক্রমে সাজানো হয় এবং n বিজোড়। এইভাবে মধ্যমা হল

$$\mathrm{\left(\frac{n+1}{2}\right)^{th}\:value}$$

উদাহরণস্বরূপ, 1, 4, 6, 7, 12, 14, 18

মধ্যমা =7

যখন n জোড় হয়। তারপর মধ্যমা হল

$$\mathrm{\frac{\left(\frac{n}{2}\right)^{th}value\:+\:\left(\frac{n}{2}\:+\:1\ ডান)^{th} মান{2}$$

উদাহরণস্বরূপ, 1, 4, 6, 7, 8, 12, 14, 16।

$$\mathrm{Median\:=\:\frac{7+8}{2}\:=\:7.5}$$

মধ্যমা একটি বিতরণমূলক পরিমাপ বা বীজগণিত পরিমাপ নয়, এটি হল সামগ্রিক পরিমাপ। যদিও এটি একটি বিশাল ডাটাবেসে সঠিক মাঝারি মান মূল্যায়ন করা নয়, একটি আনুমানিক মধ্যক কার্যকরভাবে গণনা করা যেতে পারে৷

মোড - এটি মানগুলির একটি সেটের মধ্যে সবচেয়ে সাধারণ মান। বিতরণগুলি ইউনিমোডাল, বিমোডাল বা মাল্টিমোডাল হতে পারে। যদি ডেটা শ্রেণীবদ্ধ হয় (নামমাত্র স্কেলে পরিমাপ করা হয়) তবে শুধুমাত্র মোড গণনা করা যেতে পারে। মোডটি অর্ডিনাল এবং উচ্চতর ডেটা দিয়েও গণনা করা যেতে পারে, তবে এটি উপযুক্ত নয়৷

তথ্যের বিচ্ছুরণ পরিমাপ করা − যে মাত্রায় সাংখ্যিক তথ্য ছড়িয়ে পড়ার প্রবণতা থাকে তাকে ডেটার বিচ্ছুরণ বা ভিন্নতা বলে। ডেটা বিচ্ছুরণের সবচেয়ে ঘন ঘন পরিমাপ হল পরিসীমা, আন্তঃকোয়ার্টাইল পরিসীমা, এবং স্ট্যান্ডার্ড ডেরিভেশন।

পরিসীমা − পরিসরটি ডেটার সেটে বৃহত্তম মান এবং ক্ষুদ্রতম মানের মধ্যে পার্থক্য হিসাবে উপস্থাপন করা হয়৷

$$\mathrm{রেঞ্জ\:=\:X_L-X_S}$$

কোথায়

$\mathrm{X_L\:\rightarrow\:largest value}$

$\mathrm{X_S\:\rightarrow\:smallest value}$

চতুর্থাংশ - মধ্যমা ব্যতীত সবচেয়ে সাধারণ শতাংশ হল চতুর্থাংশ। Q1 দ্বারা নির্দেশিত প্রথম চতুর্থাংশ হল 25 th শতকরা, Q3 দ্বারা নির্দেশিত তৃতীয় চতুর্থাংশ হল 75 th শতাংশ মধ্যমা ধারণ করা কোয়ার্টাইল, কেন্দ্র, স্প্রেড এবং কোয়ার্টাইলের আকৃতির কিছু ইঙ্গিত দেয় স্প্রেডের একটি সহজ পরিমাপ যা ডেটার মধ্যবর্তী অর্ধেক দ্বারা আচ্ছাদিত পরিসীমা প্রদান করে। এটি ইন্টারকোয়ার্টাইল রেঞ্জ (IQR) নামে পরিচিত এবং −

হিসাবে সংজ্ঞায়িত করা হয়

$$\mathrm{IQR\:=\:Q_{3}-Q_{1}}$$

মানক বিচ্যুতি − যখন বিচ্যুত মানগুলি পরিবর্তনে বর্গ করা হয়, তখন তাদের পরিমাপের এককও বর্গ হয়৷


  1. ডেটা মাইনিং ইন্টারফেস কি?

  2. Outliers কি?

  3. পরিসংখ্যানগত ডেটা মাইনিংয়ের পদ্ধতিগুলি কী কী?

  4. ডেটা ইন্টিগ্রিটি কত প্রকার?