ডেটা মাইনিংয়ে রিগ্রেশনের ধরন কী কী?

রিগ্রেশন একটি তত্ত্বাবধানে মেশিন লার্নিং পদ্ধতির একটি প্রকারকে সংজ্ঞায়িত করে যা যেকোনো একটানা-মূল্যবান বৈশিষ্ট্যের পূর্বাভাস দিতে ব্যবহার করা যেতে পারে। রিগ্রেশন লক্ষ্য পরিবর্তনশীল এবং ভবিষ্যদ্বাণীকারী পরিবর্তনশীল সমিতিগুলি অন্বেষণ করার জন্য কিছু ব্যবসা প্রতিষ্ঠান প্রদান করে। আর্থিক পূর্বাভাস এবং সময় সিরিজ মডেলিংয়ের জন্য ব্যবহার করা যেতে পারে এমন ডেটা অন্বেষণ করার জন্য এটি একটি অপরিহার্য হাতিয়ার৷

বিভিন্ন ধরণের রিগ্রেশন রয়েছে যা নিম্নরূপ -

লিনিয়ার রিগ্রেশন − লিনিয়ার রিগ্রেশনের মধ্যে রয়েছে দুটি বৈশিষ্ট্য (বা ভেরিয়েবল) ফিট করার জন্য "সেরা" লাইন আবিষ্কার করা যাতে একটি বৈশিষ্ট্য অন্যটির পূর্বাভাস দিতে ব্যবহার করা যেতে পারে। একাধিক রৈখিক রিগ্রেশন হল রৈখিক রিগ্রেশনের একটি অগ্রগতি, যেখানে দুটির বেশি বৈশিষ্ট্য অন্তর্ভুক্ত করা হয় এবং রেকর্ড একটি বহুমাত্রিক ক্ষেত্রের জন্য উপযুক্ত।

উদাহরণস্বরূপ, সমীকরণটি হল

Y = a + b*X + e.

কোথায়,

একটি ইন্টারসেপ্ট সংজ্ঞায়িত করে

b রিগ্রেশন লাইনের ঢাল সংজ্ঞায়িত করে

e ত্রুটি সংজ্ঞায়িত করে

X এবং Y সেই অনুযায়ী ভবিষ্যদ্বাণীকারী এবং লক্ষ্য ভেরিয়েবলকে সংজ্ঞায়িত করে। যদি X একের বেশি চলক দিয়ে তৈরি হয়, একাধিক রৈখিক সমীকরণ হিসাবে সংজ্ঞায়িত করা হয়।

রৈখিক রিগ্রেশনে, সর্বোত্তম ফিট লাইনটি সর্বনিম্ন বর্গ পদ্ধতি ব্যবহার করে প্রয়োগ করা হয় এবং এটি প্রতিটি ডেটা পয়েন্ট থেকে বিচ্যুতির বর্গের মোট যোগফলকে রিগ্রেশনের রেখায় হ্রাস করে। তাই, কিছু বিচ্যুতি বর্গ করা হয় বলে ইতিবাচক এবং নেতিবাচক বিচ্যুতি বাতিল হয় না।

পলিনোমিয়াল রিগ্রেশন − রিগ্রেশন সমীকরণে পৃথক চলকের শক্তি 1-এর বেশি হলে, এটি বহুপদী সমীকরণ হিসাবে সংজ্ঞায়িত করা হয়।

উদাহরণস্বরূপ, সমীকরণটি হল

Y = a + b * x²

নির্দিষ্ট রিগ্রেশনে, সেরা ফিট লাইনটিকে সরলরেখা যেমন রৈখিক সমীকরণ হিসাবে বিবেচনা করা হয় না; কিন্তু এটি কিছু ডেটা পয়েন্টে লাগানো একটি বক্ররেখা সংজ্ঞায়িত করে।

লজিস্টিক রিগ্রেশন − যখন নির্ভরশীল ভেরিয়েবল বাইনারি প্রকৃতির হয় যেমন 0 এবং 1, সত্য বা মিথ্যা, সাফল্য বা ব্যর্থতা, লজিস্টিক রিগ্রেশন পদ্ধতিগুলি উপস্থিত হয়। তাই, টার্গেট মান (Y) 0 থেকে 1 পর্যন্ত হয় এবং এটি সাধারণত শ্রেণীবিভাগ-ভিত্তিক সমস্যার জন্য ব্যবহৃত হয়। রৈখিক রিগ্রেশনের বিপরীতে, একটি রৈখিক সম্পর্ক থাকার জন্য কিছু স্বাধীন এবং নির্ভরশীল ভেরিয়েবলের প্রয়োজন হয় না।

রিজ রিগ্রেশন − রিজ রিগ্রেশন এমন একটি প্রক্রিয়াকে সংজ্ঞায়িত করে যা বিভিন্ন রিগ্রেশন ডেটা গণনা করতে ব্যবহার করা যেতে পারে যেগুলির মাল্টিকোলিনিয়ারিটির সমস্যা রয়েছে। মাল্টিকোলিনিয়ারিটি হল দুটি পৃথক ভেরিয়েবলের মধ্যে একটি রৈখিক পারস্পরিক সম্পর্কের ধারাবাহিকতা।

ল্যাসো রিগ্রেশন - LASSO ন্যূনতম পরম সংকোচন এবং নির্বাচন অপারেটর প্রতিনিধিত্ব করে। ল্যাসো রিগ্রেশন হল রিগ্রেশনের একটি রৈখিক পদ্ধতি যা সংকোচন ব্যবহার করে। ল্যাসো রিগ্রেশনে, কিছু ডেটা পয়েন্ট একটি কেন্দ্রীয় বিন্দুর দিকে সঙ্কুচিত হয়, যাকে গড় বলা হয়। ল্যাসো পদ্ধতিটি অন্যান্য রিগ্রেশনের তুলনায় বেশ কয়েকটি প্যারামিটার সহ সরল এবং স্পার্স মডেলের জন্য সবচেয়ে উপযুক্ত। রিগ্রেশনের এই পদ্ধতিটি এমন মডেলগুলির জন্য উপযুক্ত যা বহুসংখ্যা থেকে সহ্য করে।