কম্পিউটার

Numerosity হ্রাস কি?


Numerosity হ্রাসে, ডেটার ভলিউম একটি বিকল্প, ছোট আকারের ডেটা উপস্থাপনা বেছে নেওয়ার মাধ্যমে হ্রাস করা হয়। এই কৌশলগুলি প্যারামেট্রিক বা ননপ্যারামেট্রিক হতে পারে। প্যারামেট্রিক পদ্ধতির জন্য, ডেটা অনুমান করার জন্য একটি মডেল ব্যবহার করা হয়, যাতে প্রকৃত ডেটার পরিবর্তে শুধুমাত্র ডেটা প্যারামিটার সংরক্ষণ করা প্রয়োজন, উদাহরণস্বরূপ, লগ-লিনিয়ার মডেল। হিস্টোগ্রাম, ক্লাস্টারিং এবং স্যাম্পলিং অন্তর্ভুক্ত ডেটার একটি হ্রাসকৃত উপস্থাপনা সংরক্ষণের জন্য নন-প্যারামেট্রিক পদ্ধতিগুলি ব্যবহার করা হয়৷

সংখ্যা হ্রাসের নিম্নলিখিত কৌশলগুলি রয়েছে যা নিম্নরূপ -

রিগ্রেশন এবং লগ-লিনিয়ার মডেল - এই মডেলগুলি প্রদত্ত ডেটা আনুমানিক করতে ব্যবহার করা যেতে পারে। রৈখিক রিগ্রেশনে, ডেটা একটি সরল রেখায় ফিট করার জন্য মডেল করা হয়। উদাহরণস্বরূপ, একটি র্যান্ডম ভেরিয়েবল, y (প্রতিক্রিয়া পরিবর্তনশীল হিসাবে পরিচিত), অন্য র্যান্ডম ভেরিয়েবলের একটি রৈখিক ফাংশন হিসাবে মডেল করা যেতে পারে, x (একটি ভবিষ্যদ্বাণীকারী ভেরিয়েবল হিসাবে পরিচিত), সমীকরণ y =wx+b সহ, যেখানে y এর প্রকরণ ধ্রুবক বলে ধরে নেওয়া হয়।

লগ-লিনিয়ার মডেলগুলি৷ - এই মডেলগুলি আনুমানিক বিচ্ছিন্ন বহুমাত্রিক সম্ভাব্যতা বন্টন করতে ব্যবহৃত হয়। n মাত্রায় টিপলের একটি সেট দেওয়া (যেমন, n বৈশিষ্ট্য দ্বারা), এটি প্রতিটি টিপলকে একটি n-মাত্রিক স্থানের একটি বিন্দু হিসাবে বিবেচনা করতে পারে।

লগ-রৈখিক মডেলগুলি একটি বহুমাত্রিক স্থানের প্রতিটি বিন্দুর সম্ভাব্যতা পরিমাপ করতে ব্যবহার করা যেতে পারে বিচ্ছিন্ন বৈশিষ্ট্যগুলির একটি সেটের জন্য, এটি মাত্রিক সংমিশ্রণের একটি ছোট উপসেটের উপর নির্ভর করে। এটি নিম্ন-মাত্রিক স্থান থেকে একটি উচ্চ-মাত্রিক ডেটা ক্ষেত্র তৈরি করতে সক্ষম করে।

হিস্টোগ্রাম - হিস্টোগ্রামগুলি আনুমানিক ডেটা বিতরণের জন্য বিনিং ব্যবহার করে এবং ডেটা হ্রাসের একটি বিখ্যাত রূপ। একটি অ্যাট্রিবিউটের জন্য একটি হিস্টোগ্রাম, A, A-এর ডেটা ডিস্ট্রিবিউশনকে ডিসজয়েন্ট সাবসেট বা বালতিতে ভাগ করে। যদি প্রতিটি বালতি শুধুমাত্র একটি পৃথক বৈশিষ্ট্য-মান/ফ্রিকোয়েন্সি জোড়া সংজ্ঞায়িত করে, বালতিগুলি সিঙ্গলটন বালতি হিসাবে পরিচিত হয়৷

ক্লাস্টারিং - ক্লাস্টারিং কৌশলগুলি ডেটা টিপলকে বস্তু হিসাবে বিবেচনা করে। তারা বস্তুগুলিকে গোষ্ঠী বা ক্লাস্টারে বিভক্ত করে যাতে একটি ক্লাস্টারের মধ্যে থাকা বস্তুগুলি একে অপরের সাথে "সদৃশ" এবং অন্যান্য ক্লাস্টারের বস্তুগুলির সাথে "বিচ্ছিন্ন" হয়। এটি সাধারণত দূরত্ব ফাংশনের উপর ভিত্তি করে মহাকাশে বস্তুগুলি কতটা "কাছে" থাকে তার পরিপ্রেক্ষিতে সংজ্ঞায়িত করা হয়।

একটি ক্লাস্টারের গুণমান তার ব্যাস দ্বারা সংজ্ঞায়িত করা যেতে পারে, ক্লাস্টারের যেকোনো দুটি বস্তুর মধ্যে সর্বাধিক দূরত্ব। সেন্ট্রোয়েড দূরত্ব হল ক্লাস্টার মানের একটি বিকল্প পরিমাপ এবং ক্লাস্টার সেন্ট্রোয়েড থেকে প্রতিটি ক্লাস্টার অবজেক্টের গড় দূরত্ব হিসাবে উপস্থাপিত হয় যা "গড় বস্তু" বা ক্লাস্টারের ক্ষেত্রের গড় বিন্দু নির্দেশ করে৷

নমুনা − নমুনাকে ডেটা হ্রাস করার পদ্ধতি হিসাবে ব্যবহার করা যেতে পারে কারণ এটি একটি বিশাল ডেটা সেটকে তথ্যের অনেক ছোট র্যান্ডম নমুনা (বা উপসেট) দ্বারা সংজ্ঞায়িত করতে সক্ষম করে৷


  1. রিগ্রেশন কি?

  2. ELT কি?

  3. মডেল-ভিত্তিক ক্লাস্টারিং কি?

  4. OLAP কি?