BIRCH শ্রেণীবিন্যাস ব্যবহার করে ব্যালেন্সড ইটারেটিভ রিডুসিং এবং ক্লাস্টারিং প্রতিনিধিত্ব করে। এটি হায়ারার্কিক্যাল ক্লাস্টারিং এবং পুনরাবৃত্তিমূলক বিভাজন সহ অন্যান্য ক্লাস্টারিং পদ্ধতির একীকরণের মাধ্যমে বিপুল পরিমাণ সংখ্যাসূচক রেকর্ডের ক্লাস্টার করার জন্য ডিজাইন করা হয়েছে।
BIRCH দুটি ধারণা প্রদান করে, ক্লাস্টারিং ফিচার এবং ক্লাস্টারিং ফিচার ট্রি (সিএফ ট্রি), যা ক্লাস্টারের বর্ণনার সারমর্ম করতে ব্যবহৃত হয়। এই কাঠামোগুলি বিশাল ডাটাবেসে সর্বোত্তম গতি এবং স্কেলেবিলিটি অর্জনের জন্য ক্লাস্টারিং পদ্ধতিকে সহজতর করে এবং আগত বস্তুর ক্রমবর্ধমান এবং গতিশীল ক্লাস্টারিংয়ের জন্য এটি কার্যকরী তৈরি করে৷
একটি ক্লাস্টারে n d-মাত্রিক ডেটা অবজেক্ট বা পয়েন্ট দেওয়া হয়েছে এবং এটি সেন্ট্রোয়েড x0 প্রতিনিধিত্ব করতে পারে , ব্যাসার্ধ R, এবং ক্লাস্টারের ব্যাস D নিম্নরূপ −
$$x__{0}=\frac{\sum_{i=1}^{n}x_{i}}{n}$$
$$R=\sqrt{\frac{\sum_{i=1}^{n}(x_{i}-x_{0})^{2}}{n}}$$
$$D=\sqrt{\frac{\sum_{i=1}^{n}\sum_{j=1}^{n}(x_{i}-x_{j})^{2}}{n (n-1)}}$$
যেখানে R হল সদস্য উপাদান থেকে সেন্ট্রোয়েডের গড় দূরত্ব, এবং D হল একটি ক্লাস্টারের মধ্যে গড় জোড়ার দূরত্ব। R এবং D উভয়ই সেন্ট্রোয়েডের চারপাশে ক্লাস্টারের নিবিড়তাকে বিপরীত করে। একটি ক্লাস্টারিং বৈশিষ্ট্য (CF) হল একটি ত্রিমাত্রিক ভেক্টর যা বস্তুর ক্লাস্টার সম্পর্কে ডেটা সংক্ষিপ্ত করে। একটি ক্লাস্টারে n d-মাত্রিক বস্তু বা পয়েন্ট দেওয়া হয়েছে, {xi }, তারপর ক্লাস্টারের CF
হিসাবে উপস্থাপন করা হয়CF=(n,LL,SS)
যেখানে n হল ক্লাস্টারে বিন্দুর সংখ্যা, LS হল n পয়েন্টের রৈখিক যোগফল $\sum_{i=1}^{n}(x_{i})$ , এবং SS হল ডেটা পয়েন্টের বর্গ সমষ্টি (যেমন,$\sum_{i=1}^{n}x_{i}^{2}$)
একটি ক্লাস্টারিং বৈশিষ্ট্য হল প্রদত্ত ক্লাস্টারের পরিসংখ্যানের সারাংশ:পরিসংখ্যানগত দৃষ্টিকোণ থেকে ক্লাস্টারের শূন্য, প্রথম এবং দ্বিতীয় মুহূর্ত। ক্লাস্টারিং বৈশিষ্ট্য একটি সম্পূরক. উদাহরণস্বরূপ, অনুমান করুন যে আমাদের দুটি ডিসজয়েন্ট ক্লাস্টার রয়েছে, C1 এবং C2, সাধারণত ক্লাস্টারিং বৈশিষ্ট্যগুলি, CF1 এবং CF2 ধারণ করে। C1 এবং C2 একত্রিত করে গঠিত ক্লাস্টারের ক্লাস্টারিং বৈশিষ্ট্য হল CF1 +CF2।
BIRCH-এ ক্লাস্টারিং সিদ্ধান্তের বিকাশের জন্য প্রয়োজনীয় সমস্ত পরিমাপ গণনার জন্য ক্লাস্টারিং বৈশিষ্ট্যগুলি যথেষ্ট। BIRCH বস্তুর ক্লাস্টার সম্পর্কে ডেটা সংক্ষিপ্ত করার জন্য ক্লাস্টারিং বৈশিষ্ট্যগুলিকে কাজে লাগিয়ে দক্ষতার সাথে স্টোরেজ ব্যবহার করে, যার ফলে সমস্ত বস্তু সংরক্ষণ করার প্রয়োজনীয়তা বাইপাস করে৷
একটি সিএফ ট্রি হল একটি উচ্চতা-ভারসাম্যপূর্ণ গাছ যা শ্রেণিবদ্ধ ক্লাস্টারিংয়ের জন্য ক্লাস্টারিং বৈশিষ্ট্যগুলি সংরক্ষণ করে। একটি গাছের পাতাহীন নোডের বংশধর বা "সন্তান" থাকে। নন-লিফ নোডগুলি তাদের বাচ্চাদের সিএফের যোগফল সংরক্ষণ করে এবং তাই তাদের বাচ্চাদের সম্পর্কে ক্লাস্টারিং ডেটা সংক্ষিপ্ত করে।
একটি CF গাছের শাখাগত ফ্যাক্টর, B, এবং থ্রেশহোল্ড, T সহ দুটি পরামিতি রয়েছে। শাখার উপাদানটি অ-পাতা নোডের প্রতি সর্বাধিক সংখ্যক শিশুকে সংজ্ঞায়িত করে। থ্রেশহোল্ড প্যারামিটার গাছের পাতার নোডগুলিতে সংরক্ষিত সাব-ক্লাস্টারগুলির সর্বাধিক ব্যাস সংজ্ঞায়িত করে। এই দুটি পরামিতি ফলস্বরূপ গাছের আকার ধরে রাখে।