ইন্টারভাল-স্কেল করা ভেরিয়েবল হল আনুমানিক রৈখিক স্কেলের একটানা ডেটা। একটি উদাহরণ যেমন ওজন এবং উচ্চতা, অক্ষাংশ এবং দ্রাঘিমাংশ স্থানাঙ্ক (যেমন, ঘরগুলিকে ক্লাস্টার করার সময়), এবং আবহাওয়ার তাপমাত্রা। ব্যবহৃত পরিমাপ ইউনিট ক্লাস্টারিং বিশ্লেষণকে প্রভাবিত করতে পারে।
উদাহরণস্বরূপ, উচ্চতার জন্য মিটার থেকে ইঞ্চি বা ওজনের জন্য কিলোগ্রাম থেকে পাউন্ডে ডেটা ইউনিট পরিবর্তন করা বেশ কয়েকটি ক্লাস্টারিং কাঠামোর দিকে নিয়ে যেতে পারে। সাধারণভাবে, একটি ভেরিয়েবলকে ছোট ইউনিটে সংজ্ঞায়িত করা সেই ভেরিয়েবলের জন্য একটি উচ্চ পরিসরের দিকে নিয়ে যাবে, এবং সেইজন্য ফলস্বরূপ ক্লাস্টারিং আর্কিটেকচারের উপর একটি বড় প্রভাব৷
এটি ডেটা ইউনিটের পছন্দের উপর নির্ভরতা রোধ করতে পারে, ডেটা অবশ্যই মানসম্মত হতে হবে। স্ট্যান্ডার্ডাইজিং পরিমাপ সমস্ত ভেরিয়েবলকে সমান ওজন দেওয়ার চেষ্টা করে। এটি বিশেষত উপযোগী যখন তথ্যের পূর্ববর্তী জ্ঞান দেওয়া হয় না। কিন্তু কিছু অ্যাপ্লিকেশানে, ব্যবহারকারীদের ইচ্ছাকৃতভাবে একটি নির্দিষ্ট সেটের ভেরিয়েবলকে অন্যদের তুলনায় বেশি ওজন দিতে হবে। উদাহরণস্বরূপ, বাস্কেটবল খেলোয়াড় প্রার্থীদের ক্লাস্টার করার সময়, এটি পরিবর্তনশীল উচ্চতায় আরও ওজন প্রদান করতে পছন্দ করতে পারে।
এটি স্ট্যান্ডার্ডাইজ করা ডেটা হতে পারে, একটি পছন্দ হল মূল ডেটাকে ইউনিট কম ভেরিয়েবলে পরিবর্তন করা। একটি পরিবর্তনশীল f এর পরিমাপ দেওয়া হলে, এটি নিম্নরূপ প্রয়োগ করা যেতে পারে -
গড় পরম বিচ্যুতি গণনা করুন, sf −
$$\mathrm{s_{f}\:=\:\frac{1}{n}(|x_{1f}-m_{f}|+|x_{2f}-m_{f}|+\cdot\ cdot\cdot+|x_{nf}-m_{f}|)}$$
যেখানে x1f … xnf f এর n পরিমাপ, এবং mf f এর গড় মান, অর্থাৎ $\mathrm{m_{f}\:=\:\frac{1}{n}(|x_{1f}|+|x_{2f}|+\cdot\cdot) \cdot+|x_{nf}|)}$
প্রমিত পরিমাপ, বা z-স্কোর −
গণনা করুন$$\mathrm{z_{if}\:=\:\frac{x_{if}-m_{f}}{s_{f}}}$$
গড় পরম বিচ্যুতি, sf , প্রমিত বিচ্যুতি, $\mathrm{\sigma_{f}}$ থেকে আউটলারদের কাছে শক্তিশালী। গড় পরম বিচ্যুতি গণনা করার সময়, গড় $\mathrm{(|x_{1f}-m_{f}|)}$ থেকে বিচ্যুতিগুলি বর্গ করা হয় না।
অতএব, বহিরাগতদের প্রভাব হ্রাস পায়। মধ্যম পরম বিচ্যুতি সহ বিচ্ছুরণের শক্তিশালী ব্যবস্থা রয়েছে। গড় নিখুঁত বিচ্যুতি ব্যবহার করার সুবিধা হল যে আউটলিয়ারের z-স্কোর খুব কম আসে না; অতএব, বহিরাগতগুলি সনাক্তযোগ্য থাকে৷
মানককরণ একটি নির্দিষ্ট অ্যাপ্লিকেশনে সহায়ক হতে পারে বা নাও হতে পারে। তাই প্রমিতকরণ বাস্তবায়ন করতে হবে কিনা তা ব্যবহারকারীর উপর ছেড়ে দিতে হবে। স্ট্যান্ডার্ডাইজেশনের পরে, বা নির্দিষ্ট অ্যাপ্লিকেশনে প্রমিতকরণ ছাড়াই, ব্যবধান-স্কেল ভেরিয়েবল দ্বারা সংজ্ঞায়িত বস্তুর মধ্যে বৈষম্য (বা সাদৃশ্য) সাধারণত বস্তুর প্রতিটি গ্রুপের মধ্যে দূরত্বের উপর ভিত্তি করে গণনা করা হয়।
বিখ্যাত দূরত্ব পরিমাপ হল ইউক্লিডীয় দূরত্ব, যাকে
হিসাবে উপস্থাপন করা হয়$$\mathrm{d(i, j)=\sqrt{(X_{i1}-X_{j1}})^2+{(X_{i2}-X_{j2}})^2+... {(X_{in}-X_{jn}})^2}$$
যেখানে i =(xi1 , xi2 , … xin ) এবং j =(xj1 , xj2 , … xjn ) দুটি এন-ডাইমেনশনাল ডেটা অবজেক্ট। আরেকটি সুপরিচিত মেট্রিক হল ম্যানহাটন (বা সিটি ব্লক) দূরত্ব, যাকে
হিসাবে বর্ণনা করা হয়েছে$$\mathrm{d(i, j)=|X_{i1}-X_{j1}|+ |(X_{i2}-X_{j2}|+...|(X_{in}-X_{ jn}|}$$
ইউক্লিডীয় দূরত্ব এবং ম্যানহাটান দূরত্ব উভয়ই একটি দূরত্ব ফাংশনের নিম্নলিখিত সংখ্যাগত প্রয়োজনীয়তাগুলি পূরণ করে -
-
d(i, j) ≥ 0:দূরত্ব একটি অঋণাত্মক সংখ্যা৷
-
d(i, i) =0:একটি বস্তুর নিজের থেকে দূরত্ব হল 0.
-
d(i, j) =d(j, i):দূরত্ব একটি প্রতিসম ফাংশন।
-
d(i, j) ≤ d(i, h)+d(h, j):এটি মহাশূন্যে বস্তু i থেকে j অবজেক্টে সরাসরি যাচ্ছে অন্য কোনো বস্তু h (ত্রিভুজাকার অসমতা) এর উপর চক্কর দেওয়ার চেয়ে বেশি কিছু নয়।