কম্পিউটার

CluStream কি?


CluStream হল ব্যবহারকারীর নির্দিষ্ট, অনলাইন ক্লাস্টারিং প্রশ্নের উপর ভিত্তি করে বিবর্তিত ডেটা স্ট্রিমগুলির ক্লাস্টারিংয়ের জন্য একটি অ্যালগরিদম। এটি ক্লাস্টারিং প্রক্রিয়াকে অন-লাইন এবং অফলাইন উপাদানে বিভক্ত করে।

অনলাইন কম্পোনেন্ট মাইক্রো-ক্লাস্টার ব্যবহার করে ডেটাস্ট্রিম সম্পর্কে সংক্ষিপ্ত পরিসংখ্যান গণনা করে এবং সঞ্চয় করে এবং মাইক্রো-ক্লাস্টারগুলির ক্রমবর্ধমান অনলাইন গণনা এবং রক্ষণাবেক্ষণ করে। অফলাইন উপাদানটি ম্যাক্রো-ক্লাস্টারিং করে এবং সংরক্ষিত সারাংশ পরিসংখ্যান ব্যবহার করে ব্যবহারকারীর বিভিন্ন প্রশ্নের উত্তর দেয়, যা কাত হওয়া সময় ফ্রেম মডেলের উপর ভিত্তি করে।

ঐতিহাসিক এবং বর্তমান উভয় স্ট্রিম ডেটা তথ্যের উপর ভিত্তি করে ক্লাস্টার বিকশিত ডেটা স্ট্রীম, টিল্ট টাইম ফ্রেম মডেল (যেমন একটি প্রগতিশীল লগারিদমিক মডেল) গৃহীত হয়, যা বিভিন্ন স্তরের উপর নির্ভর করে মাইক্রোক্লাস্টারের একটি সেটের স্ন্যাপশট সংরক্ষণ করে। সাম্প্রতিক সময়ে।

এখানে অন্তর্দৃষ্টি হল যে পুরানো ঘটনাগুলির বিপরীতে সাম্প্রতিক ঘটনাগুলির জন্য আরও তথ্যের প্রয়োজন হবে৷ সংরক্ষিত তথ্য ইতিহাস-সম্পর্কিত, ব্যবহারকারী-নির্দিষ্ট ক্লাস্টারিং প্রশ্ন প্রক্রিয়াকরণের জন্য ব্যবহার করা যেতে পারে। CluStream-এ একটি মাইক্রোক্লাস্টার একটি ক্লাস্টারিং বৈশিষ্ট্য হিসাবে সংজ্ঞায়িত করা হয়৷

CluStream টেম্পোরাল ডোমেন অন্তর্ভুক্ত করার জন্য BIRCH-এ তৈরি ক্লাস্টারিং বৈশিষ্ট্যের ধারণাকে প্রসারিত করে। ক্লাস্টারিং বৈশিষ্ট্যের একটি সাময়িক এক্সটেনশন হিসাবে, ডি-ডাইমেনশনাল বিন্দুগুলির একটি সেটের জন্য অ্যামিক্রোক্লাস্টার, X1 , . . , Xn , টাইমস্ট্যাম্প সহ, T1 ,...,Tn ,কে (2d +3) টিপল (CF2 x ) হিসাবে সংজ্ঞায়িত করা হয় ,CF1 x ,CF2 t , CF1 t , n), যেখানে CF2 x এবং CF1 x d-মাত্রিক ভেক্টর যখন CF2 t , CF1 t , এবং n হল স্কেলার। CF2 x প্রতি মাত্রার ডেটা মানের বর্গক্ষেত্রের সমষ্টি বজায় রাখে, অর্থাৎ,$\sum_{i=1}^{n}{X_{i}}^{2}$

একইভাবে, প্রতিটি মাত্রার জন্য, ডেটা মানগুলির যোগফল CF1 x এ রক্ষণাবেক্ষণ করা হয় . পরিসংখ্যানগত দৃষ্টিকোণ থেকে, CF2 x এবং CF1 x যথাক্রমে ডেটার দ্বিতীয় এবং প্রথম-ক্রমের মুহূর্তগুলি উপস্থাপন করে। টাইমস্ট্যাম্পের বর্গক্ষেত্রের যোগফল CF2 t -এ বজায় রাখা হয় . টাইমস্ট্যাম্পের যোগফল CF1 t এ রক্ষণাবেক্ষণ করা হয় . অবশেষে, মাইক্রোক্লাস্টারে ডেটা পয়েন্টের সংখ্যা n.

এ বজায় রাখা হয়

ক্লাস্টারিং বৈশিষ্ট্যগুলির সংযোজন এবং বিয়োগমূলক বৈশিষ্ট্য রয়েছে যা ডেটা স্ট্রিম ক্লাস্টার বিশ্লেষণের জন্য তাদের খুব দরকারী করে তোলে৷ উদাহরণস্বরূপ, দুটি মাইক্রোক্লাস্টার তাদের নিজ নিজ ক্লাস্টারিং বৈশিষ্ট্য যোগ করে তৈরি হতে পারে। অধিকন্তু, প্রচুর পরিমাণে মাইক্রোক্লাস্টার প্রচুর পরিমাণে মেমরি ব্যবহার না করে বজায় রাখা যেতে পারে। এই মাইক্রোক্লাস্টারগুলির স্ন্যাপশটগুলি হেলানো সময়সীমার উপর ভিত্তি করে সময়ের মূল পয়েন্টগুলিতে সংরক্ষণ করা হয়৷

অনলাইন মাইক্রোক্লাস্টার প্রক্রিয়াকরণ দুটি পর্যায়ে বিভক্ত যেমন পরিসংখ্যানগত ডেটা সংগ্রহ এবং মাইক্রোক্লাস্টার আপডেট করা। প্রথম পর্যায়ে, মোট q মাইক্রোক্লাস্টার, M1 ,..., Mq , রক্ষণাবেক্ষণ করা হয়, যেখানে q সাধারণত প্রাকৃতিক ক্লাস্টারের সংখ্যা থেকে উল্লেখযোগ্যভাবে বড় হয় এবং উপলব্ধ মেমরির পরিমাণ দ্বারা নির্ধারিত হয়।

দ্বিতীয় পর্যায়ে, মাইক্রোক্লাস্টারগুলি আপডেট করা হয়। প্রতিটি নতুন ডেটা পয়েন্ট একটি বিদ্যমান ক্লাস্টার বা একটি নতুন যোগ করা হয়। এটি একটি নতুন ক্লাস্টার প্রয়োজন কিনা তা নির্ধারণ করতে পারে, প্রতিটি ক্লাস্টারের জন্য একটি সর্বোচ্চ সীমা সংজ্ঞায়িত করা হয়েছে৷


  1. ডেটা সেন্টার কি?

  2. OLAP কি?

  3. স্ট্রিম কি?

  4. সিরিয়ালাইজেশন কি?