ডেটা মাইনিংয়ে র্যান্ডমাইজড অ্যালগরিদম এবং ডেটা স্ট্রিম ম্যানেজমেন্ট সিস্টেম কী?

এলোমেলো অ্যালগরিদম৷ − র্যান্ডম স্যাম্পলিং এবং ব্লুপ্রিন্টের আকারে র্যান্ডমাইজড অ্যালগরিদমগুলি, বড়, উচ্চ-মাত্রিক ডেটা স্ট্রিমগুলি মোকাবেলা করতে ব্যবহৃত হয়। র্যান্ডমাইজেশনের প্রয়োজন পরিচিত নির্ধারক অ্যালগরিদমগুলির বিপরীতে সহজ এবং আরও কার্যকর অ্যালগরিদমের দিকে পরিচালিত করে৷

যদি একটি র্যান্ডমাইজড অ্যালগরিদম ক্রমাগত সঠিক উত্তর দেয় কিন্তু চলমান সময় পরিবর্তন হয়, এটিকে লাস ভেগাস অ্যালগরিদম বলা হয়। বিপরীতে, একটি মন্টে কার্লো অ্যালগরিদম চলমান সময়ের উপর সীমাবদ্ধ থাকে কিন্তু প্রকৃত ফলাফল পুনরুদ্ধার করতে পারে না। এটি সাধারণত মন্টে কার্লো অ্যালগরিদম বিবেচনা করতে পারে। একটি র্যান্ডমাইজড অ্যালগরিদমের গুরুত্ব হল নির্ধারক অ্যালগরিদমগুলির একটি গ্রুপের উপর সম্ভাব্যতা বন্টন হিসাবে।

প্রদত্ত যে একটি র্যান্ডমাইজড অ্যালগরিদম ফলস্বরূপ একটি র্যান্ডম ভেরিয়েবলকে পুনরুদ্ধার করে, এটি সেই র্যান্ডম ভেরিয়েবলের পুচ্ছ সম্ভাবনার উপর সীমাবদ্ধ থাকার সম্ভাবনা রয়েছে। এটি আমাদের যোগাযোগ করে যে একটি র্যান্ডম ভেরিয়েবল এর প্রত্যাশিত মান থেকে পরিবর্তিত হওয়ার সম্ভাবনা কম। প্রধান হাতিয়ার হল চেবিশেভের অসমতা।

X কে গড় µ এবং স্ট্যান্ডার্ড বিচ্যুতি σ সহ একটি এলোমেলো চলক হতে দিন (প্রকরণ σ² ) চেবিশেভের অসমতা বলে যে

$$\mathrm{P(|X-\mu|>k)<\frac{\sigma^2 }{k^2}}$$

যে কোনো প্রদত্ত ধনাত্মক বাস্তব সংখ্যার জন্য, k. এই অসমতা একটি এলোমেলো চলকের বৈচিত্র্যকে আবদ্ধ করতে ব্যবহৃত হয়। বেশ কিছু ক্ষেত্রে, একাধিক র্যান্ডম ভেরিয়েবল ব্যবহার করা যেতে পারে এই ফলাফলে আত্মবিশ্বাস বাড়াতে। এই র্যান্ডম ভেরিয়েবলগুলি সম্পূর্ণ স্বাধীন বিবেচনা করে, চেরনফ বাউন্ড ব্যবহার করা যেতে পারে৷

X₁ যাক X₂ … X_n স্বাধীন পয়সন ট্রায়াল হতে. একটি পয়সন ট্রায়ালে, সাফল্যের সম্ভাবনা ট্রায়াল থেকে ট্রায়ালে পরিবর্তিত হয়। যদি X হয় X₁ এর যোগফল X_n তে , তারপর চেরনফের একটি দুর্বল সংস্করণ আমাদের সাথে যোগাযোগ করে যে

$$\mathrm{P[X<(1+\delta)\mu]

যেখানে δ ∈ (0, 1]। এটি দেখায় যে সম্ভাব্যতা দ্রুতগতিতে হ্রাস পায় কারণ এটি গড় থেকে সরে যেতে পারে, যা দুর্বল অনুমান তৈরি করে অনেক বেশি অসম্ভাব্য।

ডেটা স্ট্রিম ম্যানেজমেন্ট সিস্টেম - একটি ডেটা স্ট্রিম ম্যানেজমেন্ট সিস্টেমে, বেশ কয়েকটি ডেটা স্ট্রিম রয়েছে। এগুলি অনলাইনে উপস্থিত হয় এবং অবিচ্ছিন্ন, অস্থায়ীভাবে সিরিজ এবং সম্ভবত অসীম। যেহেতু একটি ডেটা স্ট্রিম থেকে একটি উপাদান চিকিত্সা করা হয়েছে, এটি বাতিল বা সংরক্ষণাগারভুক্ত করা হয়েছে, এবং এটি মেমরিতে স্পষ্টভাবে সংরক্ষিত না হলে এটি সহজভাবে আনা যাবে না৷

একটি স্ট্রীম ডেটা ক্যোয়ারী প্রসেসিং স্ট্রাকচারে তিনটি উপাদান থাকে যেমন এন্ড-ইউজার, কোয়েরি প্রসেসর এবং স্ক্র্যাচ স্পেস (যা প্রধান মেমরি এবং ডিস্ক অন্তর্ভুক্ত করতে পারে)। একজন শেষ ব্যবহারকারী DSMS-এর কাছে একটি প্রশ্ন নিয়ে উদ্বিগ্ন, এবং ক্যোয়ারী প্রসেসর ক্যোয়ারীটি নেয়, স্ক্র্যাচ স্পেসে সংরক্ষিত ডেটা ব্যবহার করে এটি প্রক্রিয়া করে এবং ফলাফলগুলি ব্যবহারকারীকে পুনরুদ্ধার করে।

ক্যোয়ারী এক-কালীন প্রশ্ন বা ক্রমাগত প্রশ্ন হতে পারে। ডেটা সেটের একটি পয়েন্ট-ইন-টাইম ফটোগ্রাফের উপর একবার একটি ওয়ান-টাইম কোয়েরি গণনা করা হয়, যার উত্তর ব্যবহারকারীর কাছে পুনরুদ্ধার করা হয়। একটি ক্রমাগত ক্যোয়ারী ক্রমাগত গণনা করা হয় যেহেতু ডেটা স্ট্রীম প্রদর্শিত হতে থাকে।