কম্পিউটার

স্ট্রিম কি?


স্ট্রিম হল একটি স্বতন্ত্র-পাস, ধ্রুবক উপাদান আনুমানিক অ্যালগরিদম যা কে-মিডিয়ান সমস্যার জন্য তৈরি করা হয়েছিল। কে-মিডিয়ান সমস্যা হল এন ডেটা পয়েন্টগুলিকে k ক্লাস্টার বা গোষ্ঠীতে ক্লাস্টার করা যাতে পয়েন্ট এবং ক্লাস্টার কেন্দ্রের মধ্যে সমষ্টি স্কয়ারড ত্রুটি (SSQ) কমিয়ে দেওয়া হয়। ধারণাটি হল একই ক্লাস্টারে অনুরূপ পয়েন্টগুলি বরাদ্দ করা, যেখানে এই বিন্দুগুলি অন্যান্য ক্লাস্টারের পয়েন্টগুলির থেকে আলাদা৷

স্ট্রিম ডেটা মডেলে, ডেটা পয়েন্ট শুধুমাত্র একবার দেখা যায় এবং মেমরি এবং সময় সীমিত। এটি উচ্চ-মানের ক্লাস্টারিং বাস্তবায়ন করতে পারে, স্ট্রিম অ্যালগরিদম m পয়েন্টের বালতিতে (বা ব্যাচ) ডেটা স্ট্রিম প্রক্রিয়া করে, প্রতিটি বালতি প্রধান মেমরিতে ফিট করে।

প্রতিটি বালতির জন্য, bi , স্ট্রিম বালতির পয়েন্টগুলিকে k ক্লাস্টারে গুচ্ছ করে। তারপর এটি শুধুমাত্র k কেন্দ্র সম্পর্কিত তথ্য ধরে রেখে বালতি তথ্যের সংক্ষিপ্তসার করে, প্রতিটি ক্লাস্টার কেন্দ্রকে তার ক্লাস্টারে নির্ধারিত পয়েন্টের সংখ্যা দ্বারা ওজন করা হয়।

STREAM তারপর পয়েন্টগুলি বাতিল করে, শুধুমাত্র কেন্দ্রের তথ্য ধরে রাখে। কারণ পর্যাপ্ত কেন্দ্র সংগ্রহ করা হয়েছে, ওজনযুক্ত কেন্দ্রগুলিকে O(k) ক্লাস্টার কেন্দ্রগুলির আরেকটি গ্রুপ তৈরি করার জন্য ক্লাস্টার করা হয়েছে। এটি পুনরাবৃত্তি করা হয় যাতে প্রতিটি স্তরে, সর্বাধিক m পয়েন্ট ধরে রাখা হয়। এই পদ্ধতির ফলে এক-পাস, O(kN)-টাইম, O(N ε )-স্পেস (কিছু ধ্রুবক ε <1 এর জন্য), ডেটা স্ট্রিম কে-মিডিয়ানগুলির জন্য ধ্রুবক-ফ্যাক্টর আনুমানিক অ্যালগরিদম৷

স্ট্রিম নির্দিষ্ট এলাকা এবং সময়ের সাথে গুণমানের কে-মিডিয়ান ক্লাস্টার পরিবর্তন করে। যাইহোক, এটি রেকর্ডের বিবর্তন বা সময় গ্রানুলারিটির কোনটিরই চিকিৎসা করেনি। ক্লাস্টারিং স্ট্রীমের পুরানো, পুরানো ডেটা দ্বারা প্রভাবিত হয়ে উঠতে পারে। ক্লাস্টারগুলির বৈশিষ্ট্যগুলি যে মুহুর্তে তাদের মূল্যায়ন করা হয় এবং যে সময় দিগন্তের উপর সেগুলি পরিমাপ করা হয় উভয়ের সাথে পরিবর্তিত হতে পারে৷

উদাহরণস্বরূপ, একজন ব্যবহারকারীকে গত সপ্তাহে, গত মাসে বা গত বছর প্রদর্শিত ক্লাস্টারগুলি পরীক্ষা করতে হবে। এগুলো ভিন্ন হতে পারে। তাই, একটি ডেটা স্ট্রীম ক্লাস্টারিং অ্যালগরিদম অবশ্যই একটি ইন্টারেক্টিভ পদ্ধতিতে ব্যবহারকারী-সংজ্ঞায়িত সময়কালের উপর ক্লাস্টার গণনা করার নমনীয়তা সমর্থন করবে৷

CluStream হল ব্যবহারকারী-নির্দিষ্ট, অনলাইন ক্লাস্টারিং প্রশ্নগুলির উপর ভিত্তি করে বিবর্তিত ডেটা স্ট্রিমগুলির ক্লাস্টারিংয়ের জন্য একটি অ্যালগরিদম। এটি ক্লাস্টারিং প্রক্রিয়াকে অন-লাইন এবং অফলাইন উপাদানে বিভক্ত করে।

অনলাইন কম্পোনেন্ট মাইক্রো-ক্লাস্টার ব্যবহার করে ডেটাস্ট্রিম সম্পর্কে সংক্ষিপ্ত পরিসংখ্যান গণনা করে এবং সঞ্চয় করে এবং মাইক্রো-ক্লাস্টারগুলির ক্রমবর্ধমান অনলাইন গণনা এবং রক্ষণাবেক্ষণ করে। অফলাইন উপাদানটি ম্যাক্রো-ক্লাস্টারিং করে এবং সংরক্ষিত সংক্ষিপ্ত পরিসংখ্যান ব্যবহার করে ব্যবহারকারীর বেশ কয়েকটি প্রশ্নের সমাধান করে, যা কাত হওয়া সময় ফ্রেম মডেলের উপর নির্ভর করে।

ঐতিহাসিক এবং বর্তমান স্ট্রিম ডেটা তথ্য উভয়ের উপর ভিত্তি করে ক্লাস্টার বিবর্তিত ডেটা স্ট্রীম, টিল্ট টাইম ফ্রেম মডেল (যেমন একটি প্রগতিশীল লগারিদমিক মডেল) গৃহীত হয়, যা নতুনত্বের উপর নির্ভর করে বিভিন্ন স্তরে মাইক্রোক্লাস্টারের একটি সেটের স্ন্যাপশট সংরক্ষণ করে৷


  1. ডেটা সেন্টার কি?

  2. ELT কি?

  3. OLAP কি?

  4. সিরিয়ালাইজেশন কি?