ডেটা মাইনিংয়ে একটি ঘন ঘন সমস্যা হল একটি নির্ভরশীল ভেরিয়েবলের মান পূর্বাভাস দেওয়ার জন্য একটি রিগ্রেশন সমীকরণ ব্যবহার করা যখন এই মডেলে ভবিষ্যদ্বাণী হিসাবে নির্বাচন করার জন্য বেশ কয়েকটি ভেরিয়েবল উপলব্ধ থাকতে পারে৷
একটি পূর্বে লুকানো সম্পর্ক ফুটে উঠবে এই আশায় অসংখ্য ভেরিয়েবলের অন্তর্ভুক্তির পক্ষে আরেকটি বিবেচনা। উদাহরণস্বরূপ, একটি কোম্পানি দেখেছে যে গ্রাহকরা চেয়ার এবং টেবিলের পায়ের জন্য অ্যান্টি-স্কাফ প্রোটেক্টর কিনেছেন তাদের ঋণের ঝুঁকি কম।
একটি মডেলে সম্ভাব্য সমস্ত ভেরিয়েবল নিক্ষেপ করার আগে সতর্কতা অবলম্বন করার জন্য বেশ কয়েকটি কারণ রয়েছে৷
-
প্রত্যাশিত ভবিষ্যদ্বাণীর জন্য ভবিষ্যদ্বাণীকারীদের সম্পূর্ণ পরিপূরক সেট করা উচ্চ-মূল্যের হতে পারে বা সম্ভব নয়৷
-
এটি কম ভবিষ্যদ্বাণীকারীদের আরও সঠিকভাবে গণনা করতে সক্ষম হতে পারে (যেমন, সমীক্ষায়)।
-
যত বেশি ভবিষ্যদ্বাণী, ডেটাতে মান হারিয়ে যাওয়ার সম্ভাবনা তত বেশি। আমরা যদি অনুপস্থিত মান সহ রেকর্ডগুলি মুছে ফেলি বা অভিযুক্ত করি, তবে একাধিক ভবিষ্যদ্বাণী রেকর্ড মুছে ফেলা বা অভিযুক্ত করার উচ্চ হারের দিকে নিয়ে যাবে৷
-
পারসিমনি ভাল মডেলগুলির একটি অপরিহার্য বৈশিষ্ট্য। আমরা কয়েকটি প্যারামিটার সহ মডেলগুলিতে ভবিষ্যদ্বাণীকারীদের প্রভাব সম্পর্কে আরও অন্তর্দৃষ্টি পাই৷
-
রিগ্রেশন কোফিসিয়েন্টের অনুমান অস্পষ্ট হতে পারে, কারণ বেশ কয়েকটি ভেরিয়েবল সহ মডেলের মাল্টিকোলিনিয়ারিটি। (মাল্টিকলিনিয়ারিটি হল ফলাফল পরিবর্তনশীলের সাথে একই রৈখিক সম্পর্ক ভাগ করে নেওয়া দুই বা ততোধিক ভবিষ্যদ্বাণীর উপস্থিতি।)
-
পার্সমোনিয়াস মডেলের জন্য রিগ্রেশন সহগ শক্তিশালী। থাম্বের একটি খুব রুক্ষ নিয়ম হল 5(p + 2) এর চেয়ে অনেকগুলি রেকর্ড থাকা, যেখানে p হল ভবিষ্যদ্বাণীকারীদের সংখ্যা৷
-
এটি দেখানো যেতে পারে যে ভবিষ্যদ্বাণীগুলি ব্যবহার করে যা ফলাফল পরিবর্তনশীলের সাথে সম্পর্কহীন নয় ভবিষ্যদ্বাণীগুলির বৈচিত্র্যকে বাড়িয়ে তোলে৷
-
এটি দেখানো যেতে পারে যে ভবিষ্যদ্বাণীগুলি বাদ দেওয়া যা ফলাফল পরিবর্তনশীলের সাথে সম্পর্কযুক্ত ভবিষ্যদ্বাণীগুলির গড় ত্রুটি (পক্ষপাত) বাড়িয়ে তুলতে পারে৷
চূড়ান্ত দুটি পয়েন্ট সংজ্ঞায়িত করে যে খুব কম এবং অনেক বেশি ভবিষ্যদ্বাণীকারীদের মধ্যে একটি বাণিজ্য বন্ধ রয়েছে। সাধারণভাবে, কিছু পক্ষপাত স্বীকার করলে ভবিষ্যদ্বাণীর বৈচিত্র্য কমাতে পারে। এই পক্ষপাত-ভ্যারিয়েন্স ট্রেড-অফ একাধিক ভবিষ্যদ্বাণীকারীদের জন্য বিশেষভাবে প্রয়োজনীয় কারণ এটি সম্ভবত মডেলটিতে এমন ভেরিয়েবল রয়েছে যেগুলির মধ্যে ছোট সহগ রয়েছে যা গোলমালের মানক বিচ্যুতির সাথে সামঞ্জস্যপূর্ণ এবং অন্যান্য ভেরিয়েবলের সাথে অন্তত মাঝারি পারস্পরিক সম্পর্ক দেখায়৷
এই ধরনের ভেরিয়েবল বাদ দিলে ভবিষ্যদ্বাণীর উন্নতি হবে, কারণ এটি ভবিষ্যদ্বাণীর বৈচিত্র্যকে কমিয়ে দেয়। এই ধরনের পক্ষপাত-ভ্যারিয়েন্স ট্রেড-অফ পূর্বাভাস এবং শ্রেণীবিভাগের জন্য ডেটা মাইনিং পদ্ধতির একটি অপরিহার্য উপাদান৷