CluStream হল ব্যবহারকারীর নির্দিষ্ট, অনলাইন ক্লাস্টারিং প্রশ্নের উপর ভিত্তি করে বিবর্তিত ডেটা স্ট্রিমগুলির ক্লাস্টারিংয়ের জন্য একটি অ্যালগরিদম। এটি ক্লাস্টারিং প্রক্রিয়াকে অন-লাইন এবং অফলাইন উপাদানে বিভক্ত করে।
অনলাইন কম্পোনেন্ট মাইক্রো-ক্লাস্টার ব্যবহার করে ডেটাস্ট্রিম সম্পর্কে সংক্ষিপ্ত পরিসংখ্যান গণনা করে এবং সঞ্চয় করে এবং মাইক্রো-ক্লাস্টারগুলির ক্রমবর্ধমান অনলাইন গণনা এবং রক্ষণাবেক্ষণ করে। অফলাইন উপাদানটি ম্যাক্রো-ক্লাস্টারিং করে এবং সংরক্ষিত সারাংশ পরিসংখ্যান ব্যবহার করে ব্যবহারকারীর বিভিন্ন প্রশ্নের উত্তর দেয়, যা কাত হওয়া সময় ফ্রেম মডেলের উপর ভিত্তি করে।
ঐতিহাসিক এবং বর্তমান উভয় স্ট্রিম ডেটা তথ্যের উপর ভিত্তি করে ক্লাস্টার বিকশিত ডেটা স্ট্রীম, টিল্ট টাইম ফ্রেম মডেল (যেমন একটি প্রগতিশীল লগারিদমিক মডেল) গৃহীত হয়, যা বিভিন্ন স্তরের উপর নির্ভর করে মাইক্রোক্লাস্টারের একটি সেটের স্ন্যাপশট সংরক্ষণ করে। সাম্প্রতিক সময়ে।
এখানে অন্তর্দৃষ্টি হল যে পুরানো ঘটনাগুলির বিপরীতে সাম্প্রতিক ঘটনাগুলির জন্য আরও তথ্যের প্রয়োজন হবে৷ সংরক্ষিত তথ্য ইতিহাস-সম্পর্কিত, ব্যবহারকারী-নির্দিষ্ট ক্লাস্টারিং প্রশ্ন প্রক্রিয়াকরণের জন্য ব্যবহার করা যেতে পারে। CluStream-এ একটি মাইক্রোক্লাস্টার একটি ক্লাস্টারিং বৈশিষ্ট্য হিসাবে সংজ্ঞায়িত করা হয়৷
৷CluStream টেম্পোরাল ডোমেন অন্তর্ভুক্ত করার জন্য BIRCH-এ তৈরি ক্লাস্টারিং বৈশিষ্ট্যের ধারণাকে প্রসারিত করে। ক্লাস্টারিং বৈশিষ্ট্যের একটি সাময়িক এক্সটেনশন হিসাবে, ডি-ডাইমেনশনাল বিন্দুগুলির একটি সেটের জন্য অ্যামিক্রোক্লাস্টার, X1 , . . , Xn , টাইমস্ট্যাম্প সহ, T1 ,...,Tn ,কে (2d +3) টিপল (CF2 x ) হিসাবে সংজ্ঞায়িত করা হয় ,CF1 x ,CF2 t , CF1 t , n), যেখানে CF2 x এবং CF1 x d-মাত্রিক ভেক্টর যখন CF2 t , CF1 t , এবং n হল স্কেলার। CF2 x প্রতি মাত্রার ডেটা মানের বর্গক্ষেত্রের সমষ্টি বজায় রাখে, অর্থাৎ,$\sum_{i=1}^{n}{X_{i}}^{2}$
একইভাবে, প্রতিটি মাত্রার জন্য, ডেটা মানগুলির যোগফল CF1 x এ রক্ষণাবেক্ষণ করা হয় . পরিসংখ্যানগত দৃষ্টিকোণ থেকে, CF2 x এবং CF1 x যথাক্রমে ডেটার দ্বিতীয় এবং প্রথম-ক্রমের মুহূর্তগুলি উপস্থাপন করে। টাইমস্ট্যাম্পের বর্গক্ষেত্রের যোগফল CF2 t -এ বজায় রাখা হয় . টাইমস্ট্যাম্পের যোগফল CF1 t এ রক্ষণাবেক্ষণ করা হয় . অবশেষে, মাইক্রোক্লাস্টারে ডেটা পয়েন্টের সংখ্যা n.
এ বজায় রাখা হয়ক্লাস্টারিং বৈশিষ্ট্যগুলির সংযোজন এবং বিয়োগমূলক বৈশিষ্ট্য রয়েছে যা ডেটা স্ট্রিম ক্লাস্টার বিশ্লেষণের জন্য তাদের খুব দরকারী করে তোলে৷ উদাহরণস্বরূপ, দুটি মাইক্রোক্লাস্টার তাদের নিজ নিজ ক্লাস্টারিং বৈশিষ্ট্য যোগ করে তৈরি হতে পারে। অধিকন্তু, প্রচুর পরিমাণে মাইক্রোক্লাস্টার প্রচুর পরিমাণে মেমরি ব্যবহার না করে বজায় রাখা যেতে পারে। এই মাইক্রোক্লাস্টারগুলির স্ন্যাপশটগুলি হেলানো সময়সীমার উপর ভিত্তি করে সময়ের মূল পয়েন্টগুলিতে সংরক্ষণ করা হয়৷
অনলাইন মাইক্রোক্লাস্টার প্রক্রিয়াকরণ দুটি পর্যায়ে বিভক্ত যেমন পরিসংখ্যানগত ডেটা সংগ্রহ এবং মাইক্রোক্লাস্টার আপডেট করা। প্রথম পর্যায়ে, মোট q মাইক্রোক্লাস্টার, M1 ,..., Mq , রক্ষণাবেক্ষণ করা হয়, যেখানে q সাধারণত প্রাকৃতিক ক্লাস্টারের সংখ্যা থেকে উল্লেখযোগ্যভাবে বড় হয় এবং উপলব্ধ মেমরির পরিমাণ দ্বারা নির্ধারিত হয়।
দ্বিতীয় পর্যায়ে, মাইক্রোক্লাস্টারগুলি আপডেট করা হয়। প্রতিটি নতুন ডেটা পয়েন্ট একটি বিদ্যমান ক্লাস্টার বা একটি নতুন যোগ করা হয়। এটি একটি নতুন ক্লাস্টার প্রয়োজন কিনা তা নির্ধারণ করতে পারে, প্রতিটি ক্লাস্টারের জন্য একটি সর্বোচ্চ সীমা সংজ্ঞায়িত করা হয়েছে৷