পরিসংখ্যানগত ডেটা মাইনিংয়ের পদ্ধতিগুলি কী কী?

পরিসংখ্যানগত ডেটা মাইনিং কৌশলগুলিতে, এটি প্রচুর পরিমাণে ডেটা কার্যকরভাবে পরিচালনার জন্য তৈরি করা হয় যা সাধারণত বহুমাত্রিক এবং সম্ভবত বেশ কয়েকটি জটিল প্রকারের।

ডেটা বিশ্লেষণের জন্য বেশ কিছু সুপ্রতিষ্ঠিত পরিসংখ্যান পদ্ধতি রয়েছে, বিশেষ করে সংখ্যাসূচক ডেটার জন্য। এই পদ্ধতিগুলি ব্যাপকভাবে বৈজ্ঞানিক রেকর্ডে ব্যবহার করা হয়েছে (যেমন, পদার্থবিদ্যা, প্রকৌশল, উত্পাদন, মনোবিজ্ঞান, এবং ওষুধের পরীক্ষা থেকে রেকর্ড), এবং অর্থনীতি এবং সামাজিক বিজ্ঞানের তথ্যের জন্য।

পরিসংখ্যানগত ডেটা মাইনিংয়ের বিভিন্ন পদ্ধতি রয়েছে যা নিম্নরূপ -

রিগ্রেশন − সাধারণভাবে, এই কৌশলগুলি নতুন ভবিষ্যদ্বাণীকারী (স্বাধীন) ভেরিয়েবল থেকে প্রতিক্রিয়া (নির্ভরশীল) ভেরিয়েবলের মান পূর্বাভাস দিতে ব্যবহৃত হয়, যেখানে ভেরিয়েবলগুলি সংখ্যাসূচক। রৈখিক, মাল্টিপল, ওয়েটেড, বহুপদী, ননপ্যারামেট্রিক এবং শক্তিশালী সহ রিগ্রেশনের বিভিন্ন প্রকার রয়েছে (যখন ত্রুটিগুলি স্বাভাবিক অবস্থার শর্ত পূরণ করতে অস্বীকার করে বা যখন ডেটা উল্লেখযোগ্য আউটলার অন্তর্ভুক্ত করে তখন শক্তিশালী পদ্ধতিগুলি উপকারী)।

সাধারণকৃত লিনিয়ার মডেল − এই মডেলগুলি এবং তাদের সাধারণীকরণ (সাধারণকৃত সংযোজন মডেল), রৈখিক রিগ্রেশন ব্যবহার করে একটি গাণিতিক প্রতিক্রিয়া ভেরিয়েবলের মডেলিংয়ের অনুরূপভাবে ভবিষ্যদ্বাণীকারী ভেরিয়েবলের একটি সেটের সাথে যুক্ত হতে একটি শ্রেণীবদ্ধ (নামমাত্র) প্রতিক্রিয়া ভেরিয়েবল (এর বেশ কয়েকটি রূপান্তর) সক্ষম করে। . সাধারণ রৈখিক মডেলে লজিস্টিক রিগ্রেশন এবং পয়সন রিগ্রেশন জড়িত।

ভেরিয়েন্সের বিশ্লেষণ - এই পদ্ধতি দুটি বা ততোধিক জনসংখ্যার জন্য পরীক্ষামূলক তথ্য বিশ্লেষণ করে যা একটি সংখ্যাসূচক প্রতিক্রিয়া পরিবর্তনশীল এবং নতুন শ্রেণীগত ভেরিয়েবল (ফ্যাক্টর) দ্বারা সংজ্ঞায়িত করা হয়। সাধারণভাবে, একটি ANOVA (ভ্যারিয়েন্সের একক-ফ্যাক্টর বিশ্লেষণ) সমস্যায় k জনসংখ্যার তুলনা বা চিকিত্সা নির্ধারণ করে যে অন্তত দুটি উপায় আলাদা কিনা।

মিশ্র-প্রভাব মডেল − এই মডেলগুলি গোষ্ঠীবদ্ধ ডেটা অন্বেষণের জন্য - ডেটা যা এক বা একাধিক গ্রুপিং ভেরিয়েবল অনুসারে শ্রেণীবদ্ধ করা যেতে পারে। তারা সাধারণত এক বা একাধিক কারণের ভিত্তিতে একত্রিত ডেটাতে প্রতিক্রিয়া পরিবর্তনশীল এবং একাধিক কোভেরিয়েটের মধ্যে সম্পর্ককে সংজ্ঞায়িত করে। প্রয়োগের বিভিন্ন ক্ষেত্র রয়েছে যেমন মাল্টিলেভেল ডেটা, বারবার পরিমাপের ডেটা, ব্লক ডিজাইন এবং অনুদৈর্ঘ্য ডেটা৷

ফ্যাক্টর বিশ্লেষণ - এই পদ্ধতিটি নির্ধারণ করতে পারে যে কোন ভেরিয়েবলগুলিকে একটি প্রদত্ত ফ্যাক্টর তৈরি করতে একত্রিত করা হয়। উদাহরণস্বরূপ, বেশ কয়েকটি মানসিক ডেটার জন্য, এটি সরাসরি আগ্রহের একটি নির্দিষ্ট ফ্যাক্টর গণনা করার জন্য প্রযোজ্য নয় (যেমন, বুদ্ধিমত্তা); যাইহোক, এটি অন্যান্য পরিমাণ পরিমাপের জন্য প্রযোজ্য যা আগ্রহের উপাদানকে প্রতিফলিত করে। অতএব, ভেরিয়েবলের কোনটিই নির্ভরশীল হিসাবে নিযুক্ত নয়।

বৈষম্যমূলক বিশ্লেষণ - এই কৌশলটি একটি শ্রেণীবদ্ধ প্রতিক্রিয়া পরিবর্তনশীল ভবিষ্যদ্বাণী করতে পারে। সাধারণীকৃত রৈখিক মডেলের বিপরীতে, এটি বিবেচনা করে যে স্বাধীন ভেরিয়েবলগুলি একটি মাল্টিভেরিয়েট স্বাভাবিক বন্টন অনুসরণ করে। প্রক্রিয়াটি বেশ কয়েকটি বৈষম্যমূলক ফাংশন (স্বাধীন ভেরিয়েবলের রৈখিক সেট) নির্ধারণ করার চেষ্টা করে যা প্রতিক্রিয়া ভেরিয়েবল দ্বারা প্রতিনিধিত্ব করা গ্রুপগুলির মধ্যে বৈষম্য করে। বৈষম্যমূলক বিশ্লেষণ সাধারণত সামাজিক বিজ্ঞানে ব্যবহৃত হয়।

বেঁচে থাকার বিশ্লেষণ − বেঁচে থাকার বিশ্লেষণের জন্য একাধিক সুপ্রতিষ্ঠিত পরিসংখ্যান পদ্ধতি বিদ্যমান। এই কৌশলগুলি প্রাথমিকভাবে এই সম্ভাবনার পূর্বাভাস দেওয়ার জন্য ডিজাইন করা হয়েছিল যে চিকিত্সা বিশ্লেষণের মধ্য দিয়ে একজন রোগী অন্ততপক্ষে বেঁচে থাকতে পারে৷

গুণ নিয়ন্ত্রণ − গুণ নিয়ন্ত্রণের জন্য চার্ট প্রস্তুত করতে একাধিক পরিসংখ্যান ব্যবহার করা হয়, যার মধ্যে রয়েছে Shewhart চার্ট এবং CUSUM চার্ট। এই পরিসংখ্যানগুলি গড়, মানক বিচ্যুতি, পরিসর, গণনা, চলমান গড়, চলমান মান বিচ্যুতি, এবং চলমান পরিসীমা জড়িত৷