কম্পিউটার

কিভাবে আমরা মূল বৈশিষ্ট্যগুলির একটি ভাল উপসেট খুঁজে পেতে পারি?


অ্যাট্রিবিউট সাবসেট নির্বাচন অপ্রাসঙ্গিক বা অপ্রয়োজনীয় বৈশিষ্ট্যগুলি (বা মাত্রা) সরিয়ে ডেটা সেটের আকার হ্রাস করে। অ্যাট্রিবিউট সাবসেট নির্বাচনের উদ্দেশ্য হল বৈশিষ্ট্যগুলির একটি ন্যূনতম সেট আবিষ্কার করা যাতে ডেটা ক্লাসগুলির পরবর্তী সম্ভাব্যতা বন্টন সমস্ত বৈশিষ্ট্য ব্যবহার করে প্রাপ্ত মূল বিতরণের যতটা সম্ভব কাছাকাছি হয়৷

n বৈশিষ্ট্যগুলির জন্য, 2n সম্ভাব্য উপসেট রয়েছে। গুণাবলীর সর্বোত্তম উপসেটের জন্য একটি বিস্তৃত অনুসন্ধান অত্যন্ত ব্যয়বহুল হতে পারে, বিশেষত n এবং ডেটা ক্লাসের সংখ্যা বৃদ্ধির কারণে। তাই, হিউরিস্টিক পন্থাগুলি যা একটি কম অনুসন্ধান স্থান অন্বেষণ করে সাধারণত অ্যাট্রিবিউট সাবসেট নির্বাচনের জন্য ব্যবহৃত হয়৷

এই পন্থাগুলি প্রায়শই লোভী হয় যে অ্যাট্রিবিউট স্পেসের মাধ্যমে অনুসন্ধান করার সময়, তারা ক্রমাগতভাবে তৈরি করে যে সেই সময়ে কোনটি ভাল পছন্দ হবে৷ তাদের পদ্ধতি হল স্থানীয়ভাবে সর্বোত্তম পছন্দ বিকাশ করা এই আশায় যে এটি বিশ্বব্যাপী সর্বোত্তম সমাধানের দিকে নিয়ে যাবে। এই ধরনের লোভী কৌশলগুলি অনুশীলনে দক্ষ এবং একটি সর্বোত্তম সমাধান গণনার কাছাকাছি আসতে পারে৷

"সেরা" এবং "সবচেয়ে খারাপ" বৈশিষ্ট্যগুলি সাধারণত পরিসংখ্যানগত তাত্পর্যের পরীক্ষাগুলি ব্যবহার করে সিদ্ধান্ত নেওয়া হয়, যা বিবেচনা করে যে বৈশিষ্ট্যগুলি একে অপরের থেকে আলাদা। শ্রেণীবিভাগের জন্য সিদ্ধান্ত গাছ নির্মাণে ব্যবহৃত তথ্য লাভের পরিমাপ সহ কিছু ভিন্ন বৈশিষ্ট্য মূল্যায়ন ব্যবস্থা ব্যবহার করা যেতে পারে।

অ্যাট্রিবিউট সাবসেট নির্বাচনের মৌলিক হিউরিস্টিক পদ্ধতি রয়েছে যার মধ্যে নিম্নলিখিত কৌশলগুলি অন্তর্ভুক্ত রয়েছে যা নিম্নরূপ -

ধাপে এগিয়ে নির্বাচন - প্রক্রিয়াটি কমে যাওয়া সেট হিসাবে বৈশিষ্ট্যগুলির একটি শূন্য সেট দিয়ে শুরু হয়। প্রাথমিক বৈশিষ্ট্যগুলির মধ্যে সেরাটি নির্ধারণ করা হয় এবং হ্রাসকৃত সেটে ঢোকানো হয়। প্রতিটি পরবর্তী পুনরাবৃত্তি বা ধাপে, অবশিষ্ট প্রাথমিক বৈশিষ্ট্যগুলি সেটে ঢোকানো হয়৷

ধাপে পশ্চাৎপদ নির্মূল৷ - প্রক্রিয়াটি বৈশিষ্ট্যগুলির সম্পূর্ণ সেট দিয়ে শুরু হয়। প্রতিটি পর্যায়ে, এটি সেটের মধ্যে থাকা সবচেয়ে খারাপ বৈশিষ্ট্যকে সরিয়ে দেয়।

ফরওয়ার্ডিং নির্বাচন এবং পশ্চাদপদ নির্মূলের সমন্বয় − ধাপে ধাপে এগিয়ে নির্বাচন এবং পশ্চাদগামী নির্মূল কৌশলগুলিকে মিশ্রিত করা যেতে পারে যাতে, প্রতিটি পর্যায়ে, প্রক্রিয়াটি সেরা বৈশিষ্ট্য বেছে নেয় এবং অবশিষ্ট বৈশিষ্ট্যগুলির মধ্যে থেকে সবচেয়ে খারাপটি দূর করে৷

ডিসিশন ট্রি ইনডাকশন − ID3, C4.5 এবং CART সহ ডিসিশন ট্রি অ্যালগরিদম প্রাথমিকভাবে শ্রেণীবিভাগের জন্য ডিজাইন করা হয়েছিল। ডিসিশন ট্রি ইনডাকশন একটি ফ্লোচার্ট-এর মতো কাঠামো তৈরি করে যেখানে প্রতিটি অভ্যন্তরীণ (নন-লিফ) নোড একটি বৈশিষ্ট্যের উপর একটি পরীক্ষা নির্দেশ করে, প্রতিটি শাখা পরীক্ষার ফলাফলের সাথে মিলে যায়, এবং প্রতিটি বহিরাগত (পাতা) নোড একটি শ্রেণির পূর্বাভাস নির্দেশ করে। প্রতিটি নোডে, অ্যালগরিদম তথ্যকে একক শ্রেণীতে ভাগ করার জন্য "সেরা" বৈশিষ্ট্য নির্বাচন করে।

যখন ডিসিশন ট্রি ইনডাকশন অ্যাট্রিবিউট সাবসেট নির্বাচনের জন্য ব্যবহার করা হয়, প্রদত্ত তথ্য থেকে একটি গাছ তৈরি করা হয়। গাছে ঘটে না এমন সমস্ত গুণাবলী অপ্রাসঙ্গিক বলে বিবেচিত হয়। গাছে ঘটতে থাকা গুণাবলীর গোষ্ঠী বৈশিষ্ট্যগুলির হ্রাসকৃত উপসেট গঠন করে।


  1. এক্সেল ফাইন্ড ফাংশনটি কীভাবে ব্যবহার করবেন

  2. কীভাবে একটি নেটওয়ার্ক প্রিন্টারের আইপি ঠিকানা খুঁজে পাবেন

  3. Windows 11 PC এ IP ঠিকানা কীভাবে খুঁজে পাবেন

  4. কিভাবে রিমোট ডেস্কটপ উইন্ডোজ 10 এ কম্পিউটার খুঁজে পাচ্ছে না ঠিক করবেন