কম্পিউটার

প্রধান উপাদান বিশ্লেষণ কি?


প্রিন্সিপ্যাল ​​কম্পোনেন্ট অ্যানালাইসিস হল একটি তত্ত্বাবধানহীন লার্নিং অ্যালগরিদম যা মেশিন লার্নিং-এ মাত্রিকতা হ্রাসের জন্য ব্যবহৃত হয়। এটি একটি পরিসংখ্যানগত প্রক্রিয়া যা অর্থোগোনাল ডেটার সমর্থনে রৈখিকভাবে অসম্পর্কিত বৈশিষ্ট্যগুলির একটি সংগ্রহে পারস্পরিক সম্পর্কযুক্ত বৈশিষ্ট্যগুলির পর্যবেক্ষণকে রূপান্তরিত করে। এই নতুন রূপান্তরিত বৈশিষ্ট্যগুলি প্রধান উপাদান হিসাবে পরিচিত।

এটি একটি বিখ্যাত টুল যা অনুসন্ধানমূলক ডেটা বিশ্লেষণ এবং ভবিষ্যদ্বাণী মডেলিংয়ের জন্য ব্যবহৃত হয়। এটি প্রদত্ত ডেটাসেট থেকে ভিন্নতা কমিয়ে একটি শক্তিশালী নকশা আঁকার একটি পদ্ধতি।

PCA প্রতিটি অ্যাট্রিবিউটের বৈচিত্র্যের চিকিৎসা করে কাজ করে কারণ উচ্চ অ্যাট্রিবিউট ক্লাসের মধ্যে বিভাজন দেখায় এবং তাই এটি মাত্রাকে কমিয়ে দেয়। PCA-এর কিছু বাস্তব-বিশ্বের অ্যাপ্লিকেশন হল ইমেজ প্রসেসিং, মুভি রিকমেন্ডেশন সিস্টেম, বিভিন্ন যোগাযোগ চ্যানেলে পাওয়ার বরাদ্দ অপ্টিমাইজ করা। এটি একটি বৈশিষ্ট্য নিষ্কাশন পদ্ধতি, তাই এটি গুরুত্বপূর্ণ ভেরিয়েবলগুলিকে অন্তর্ভুক্ত করে এবং সবচেয়ে কম গুরুত্বপূর্ণ ভেরিয়েবলকে ড্রপ করে৷

প্রধান উপাদান বিশ্লেষণকে Karhunen-Loeve, বা K-L, পদ্ধতিও বলা হয়। এটি k n-মাত্রিক অর্থোগোনাল ভেক্টরগুলির জন্য অনুসন্ধান করতে পারে যা ডেটা উপস্থাপন করতে সর্বোত্তমভাবে ব্যবহার করা যেতে পারে, যেখানে k ≤ n। মূল তথ্য একটি অনেক ছোট এলাকায় অভিক্ষিপ্ত হয়, যার ফলে মাত্রা হ্রাস হয়। এটি ভেরিয়েবলের একটি বিকল্প ছোট সেট তৈরি করে বৈশিষ্ট্যের সারাংশকে সংযুক্ত করে। প্রাথমিক ডেটা তারপর এই ছোট সেটে প্রজেক্ট করা যেতে পারে।

পিসিএ-তে নিম্নলিখিত ধাপগুলি ব্যবহার করা হয় -

  • ইনপুট ডেটা স্বাভাবিক করা হয় যাতে প্রতিটি বৈশিষ্ট্য একই পরিসরের মধ্যে পড়ে। এই পদক্ষেপটি নিশ্চিত করতে সাহায্য করে যে বড় ডোমেনের বৈশিষ্ট্যগুলি ছোট ডোমেনের বৈশিষ্ট্যগুলিকে প্রভাবিত করবে না৷

  • PCA কে অর্থনর্মাল ভেক্টর মূল্যায়ন করে যা স্বাভাবিক ইনপুট ডেটার জন্য একটি ভিত্তি সমর্থন করে। এগুলি হল একক ভেক্টর যেগুলি প্রতিটি বিন্দু অন্যের দিকে লম্ব করে। এই ভেক্টরগুলিকে প্রধান উপাদান হিসাবে সংজ্ঞায়িত করা হয়। ইনপুট ডেটা হল প্রধান উপাদানগুলির একটি রৈখিক সেট৷

  • প্রধান উপাদানগুলি "তাৎপর্য" বা শক্তি হ্রাস করার ক্রমে সাজানো হয়। প্রধান উপাদানগুলি মূলত ডেটার জন্য অক্ষের একটি নতুন সেট হিসাবে কাজ করে, বৈচিত্র সম্পর্কে গুরুত্বপূর্ণ তথ্য প্রদান করে। অর্থাৎ, সাজানো অক্ষগুলি এমন যে প্রথম অক্ষটি ডেটার মধ্যে সর্বাধিক বৈচিত্র প্রদর্শন করে, দ্বিতীয় অক্ষটি পরবর্তী সর্বোচ্চ বৈচিত্র প্রদর্শন করে, ইত্যাদি।

  • কারণ উপাদানগুলিকে "তাৎপর্য"-এর ক্রমহ্রাসমান ক্রম অনুসারে বাছাই করা হয়েছে, তাই দুর্বল উপাদানগুলিকে সরিয়ে ডেটার আকার হ্রাস করা যেতে পারে, যেমন, কম বৈচিত্র্য সহ। সবচেয়ে শক্তিশালী প্রধান উপাদানগুলি ব্যবহার করে, মূল ডেটার একটি ভাল অনুমান পুনর্গঠন করা সম্ভব হওয়া উচিত।


  1. ELT কি?

  2. OLAP এর অ্যাপ্লিকেশন কি কি?

  3. OLAP কি?

  4. ডকুমেন্ট ক্লাস্টারিং বিশ্লেষণ কি?