পরিসংখ্যানগত ডেটা মাইনিংয়ের কৌশলগুলি কী?

পরিসংখ্যানগত ডেটা মাইনিংয়ের বিভিন্ন কৌশল রয়েছে যা নিম্নরূপ -

রিগ্রেশন − এই পন্থাগুলি এক বা একাধিক ভবিষ্যদ্বাণীকারী (স্বাধীন) ভেরিয়েবল থেকে প্রতিক্রিয়া (নির্ভরশীল) ভেরিয়েবলের মান পূর্বাভাস দিতে ব্যবহৃত হয় যেখানে ভেরিয়েবলগুলি সংখ্যাসূচক। রৈখিক, মাল্টিপল, ওয়েটেড, বহুপদী, ননপ্যারামেট্রিক এবং শক্তিশালী সহ রিগ্রেশনের বিভিন্ন রূপ রয়েছে (যখন ত্রুটিগুলি স্বাভাবিক অবস্থার শর্ত পূরণ করতে ব্যর্থ হয় বা যখন ডেটাতে উল্লেখযোগ্য আউটলায়ার থাকে) তখন শক্তিশালী কৌশলগুলি উপকারী।

সাধারণকৃত লিনিয়ার মডেলগুলি৷ − এই মডেলগুলি, এবং তাদের সাধারণীকরণ (সাধারণকৃত সংযোজন মডেল), রৈখিক রিগ্রেশন ব্যবহার করে একটি সংখ্যাসূচক প্রতিক্রিয়া ভেরিয়েবলের মডেলিংয়ের মতো ভবিষ্যদ্বাণীকারী ভেরিয়েবলের একটি সেটের সাথে যুক্ত হতে একটি শ্রেণীগত প্রতিক্রিয়া ভেরিয়েবল (বা এটির কিছু রূপান্তর) সক্ষম করে। সাধারণ রৈখিক মডেলগুলিতে লজিস্টিক রিগ্রেশন এবং পয়সন রিগ্রেশন থাকে।

ভেরিয়েন্সের বিশ্লেষণ − এই পদ্ধতিগুলি একটি সংখ্যাসূচক প্রতিক্রিয়া ভেরিয়েবল এবং এক বা একাধিক শ্রেণীগত ভেরিয়েবল (ফ্যাক্টর) দ্বারা সংজ্ঞায়িত দুই বা ততোধিক জনসংখ্যার জন্য পরীক্ষামূলক ডেটা বিশ্লেষণ করে। সাধারণভাবে, একটি ANOVA (ভ্যারিয়েন্সের একক-ফ্যাক্টর বিশ্লেষণ) সমস্যায় k জনসংখ্যার তুলনা বা চিকিত্সা নির্ধারণ করে যে অন্তত দুটি উপায় আলাদা কিনা।

মিশ্র-প্রভাব মডেল − এই মডেলগুলি গোষ্ঠীবদ্ধ ডেটা বিশ্লেষণ করার জন্য - ডেটা যা এক বা একাধিক গ্রুপিং ভেরিয়েবল অনুসারে শ্রেণীবদ্ধ করা যেতে পারে। তারা সাধারণত এক বা একাধিক কারণ অনুযায়ী একত্রিত ডেটাতে প্রতিক্রিয়া ভেরিয়েবল এবং কিছু কোভেরিয়েটের মধ্যে সম্পর্ককে সংজ্ঞায়িত করে। প্রয়োগের সাধারণ ক্ষেত্র যেমন মাল্টিলেভেল ডেটা, বারবার পরিমাপ ডেটা, ব্লক ডিজাইন এবং অনুদৈর্ঘ্য ডেটা।

ফ্যাক্টর বিশ্লেষণ - এই পদ্ধতিটি নির্ধারণ করতে পারে যে কোন ভেরিয়েবলগুলিকে একটি প্রদত্ত ফ্যাক্টর তৈরি করতে একত্রিত করা হয়েছে। উদাহরণস্বরূপ, কিছু মানসিক তথ্যের জন্য, আগ্রহের একটি নির্দিষ্ট ফ্যাক্টর সরাসরি পরিমাপ করা সম্ভব নয় (বুদ্ধিমত্তা সহ); যাইহোক, এটি অন্যান্য পরিমাণ (ছাত্রের পরীক্ষার স্কোর সহ) পরিমাপের জন্য প্রযোজ্য যা আগ্রহের উপাদানকে প্রতিফলিত করে। এখানে, কোনো ভেরিয়েবলকে নির্ভরশীল হিসেবে চিহ্নিত করা হয়নি।

বৈষম্যমূলক বিশ্লেষণ - এই পদ্ধতিটি একটি শ্রেণীবদ্ধ প্রতিক্রিয়া ভেরিয়েবলের পূর্বাভাস দিতে পারে। সাধারণীকৃত রৈখিক মডেলের বিপরীতে, এটি বোঝায় যে স্বাধীন ভেরিয়েবল একটি মাল্টিভেরিয়েট স্বাভাবিক বন্টন অনুসরণ করে।

প্রক্রিয়াটি কিছু বৈষম্যমূলক ফাংশন (স্বাধীন ভেরিয়েবলের রৈখিক সেট) নির্ধারণ করার চেষ্টা করে যা প্রতিক্রিয়া ভেরিয়েবল দ্বারা প্রতিনিধিত্ব করা গ্রুপগুলির মধ্যে বৈষম্য করে। বৈষম্যমূলক বিশ্লেষণ সাধারণত সামাজিক বিজ্ঞানে ব্যবহৃত হয়।

টাইম সিরিজ বিশ্লেষণ − সময়-সিরিজ ডেটা বিশ্লেষণের জন্য কিছু পরিসংখ্যানগত কৌশল রয়েছে, যার মধ্যে রয়েছে অটো-রিগ্রেশন পদ্ধতি, ইউনিভেরিয়েট ARIMA (অটোরিগ্রেসিভ ইন্টিগ্রেটেড মুভিং এভারেজ) মডেলিং, এবং লং-মেমরি টাইম-সিকোয়েন্স মডেলিং।

সারভাইভাল অ্যানালাইসিস - বেঁচে থাকার বিশ্লেষণের জন্য বেশ কিছু সুপ্রতিষ্ঠিত পরিসংখ্যান পদ্ধতি বিদ্যমান। এই পদ্ধতিগুলি প্রাথমিকভাবে এই সম্ভাবনার পূর্বাভাস দেওয়ার জন্য ডিজাইন করা হয়েছিল যে কোনও রোগী চিকিৎসাধীন অবস্থায় অন্তত বেঁচে থাকতে পারে৷

গুণমান নিয়ন্ত্রণ − বেশ কিছু পরিসংখ্যান ব্যবহার করা যেতে পারে মান নিয়ন্ত্রণের জন্য চার্ট প্রস্তুত করতে, যার মধ্যে রয়েছে Shewhart চার্ট এবং CUSUM চার্ট (যা উভয়ই গ্রুপের সারাংশ পরিসংখ্যান প্রদর্শন করে)। এই পরিসংখ্যানগুলিতে গড়, মানক বিচ্যুতি, পরিসর, গণনা, চলমান গড়, চলমান মান বিচ্যুতি এবং চলমান পরিসীমা রয়েছে৷