K- নিকটতম প্রতিবেশীদের অ্যালগরিদম কি?

একটি k-নিকটবর্তী-প্রতিবেশী অ্যালগরিদম হল একটি শ্রেণিবিন্যাস পদ্ধতি যা শ্রেণি সদস্যপদ (Y) এবং পূর্বাভাসকারী X₁-এর মধ্যে সম্পর্কের কাঠামো সম্পর্কে অনুমান তৈরি করে না , X₂ ,... X_n .

এটি একটি ননপ্যারামেট্রিক পদ্ধতি কারণ এটি রৈখিক রিগ্রেশনে ভান করা রৈখিক ফর্ম সহ একটি ভান করা ফাংশন ফর্মের প্যারামিটারগুলির অনুমান অন্তর্ভুক্ত করে না। এই পদ্ধতিটি ডেটাসেটে ডেটার ভবিষ্যদ্বাণীকারী মানের মধ্যে মিল থেকে ডেটা আঁকে।

k-নিকটবর্তী-প্রতিবেশী পদ্ধতির ধারণা হল প্রশিক্ষণ ডেটাসেটে k রেকর্ডগুলিকে চিনতে যা শ্রেণীবদ্ধ করার জন্য প্রয়োজনীয় নতুন ডেটার মতোই। এটি এই অনুরূপ (প্রতিবেশী) রেকর্ডগুলিকে একটি শ্রেণিতে নতুন রেকর্ড সংজ্ঞায়িত করতে ব্যবহার করতে পারে, এই প্রতিবেশীদের মধ্যে প্রধান শ্রেণীতে নতুন ডেটা তৈরি করে। এটি X₁ দ্বারা এই নতুন রেকর্ডের জন্য ভবিষ্যদ্বাণীকারীদের মান নির্দেশ করে৷ , X₂ ,... X_n .

একটি কেন্দ্রীয় প্রশ্ন হল কিভাবে তাদের ভবিষ্যদ্বাণীকারী মানগুলির উপর নির্ভর করে ডেটার মধ্যে দূরত্ব গণনা করা যায়। দূরত্বের সুপরিচিত পরিমাপ হল ইউক্লিডীয় দূরত্ব। দুটি রেকর্ডের মধ্যে ইউক্লিডীয় দূরত্ব (X₁ , X₂ ,... X_n ) এবং (U₁ , U₂ ,... U_n ) হল

$$\mathrm{\sqrt{(X_1-U_1)^2+(X_2-U_2)^2+...(X_n-U_n)^2}}$$

k-NN অ্যালগরিদম বেশ কিছু দূরত্বের গণনার উপর নির্ভর করে (পূর্বাভাস দেওয়া প্রতিটি ডেটা এবং প্রশিক্ষণ সেটের প্রতিটি ডেটার মধ্যে), এবং তাই ইউক্লিডীয় দূরত্ব, যা গণনাগতভাবে সস্তা, কে-এনএন-এ সবচেয়ে জনপ্রিয়৷

এটি বেশ কয়েকটি ভবিষ্যদ্বাণীকারীর যে স্কেলগুলি থাকতে পারে তার ভারসাম্য বজায় রাখতে পারে, বেশিরভাগ ক্ষেত্রে, একটি ইউক্লিডীয় দূরত্ব গণনা করার আগে ভবিষ্যদ্বাণীকারীদের অবশ্যই মানসম্মত হতে হবে। যে উপায়গুলি এবং মানক বিচ্যুতিগুলি নতুন ডেটাকে প্রমিত করতে পারে তা হল প্রশিক্ষণের ডেটা, এবং নতুন ডেটা তাদের গণনার সাথে জড়িত নয়। বৈধকরণ ডেটা, যেমন নতুন ডেটা, এই গণনার সাথে জড়িত নয়৷

৷

সংজ্ঞায়িত করা ডেটা এবং বর্তমান রেকর্ডগুলির মধ্যে দূরত্ব গণনা করার পরে, এটির প্রতিবেশীদের শ্রেণির উপর নির্ভর করে, শ্রেণীবদ্ধ করার জন্য রেকর্ডে একটি শ্রেণী বরাদ্দ করার জন্য একটি নিয়ম প্রয়োজন৷

সবচেয়ে সহজ কেসটি হল k =1, যেখানে আমরা নিকটতম ডেটা (নিকটতম প্রতিবেশী) সন্ধান করি এবং নতুন ডেটাটিকে তার নিকটতম প্রতিবেশী হিসাবে সমান শ্রেণির অন্তর্ভুক্ত হিসাবে শ্রেণীবদ্ধ করি৷

এটি একটি অসাধারণ সত্য যে রেকর্ড শ্রেণীবদ্ধ করার জন্য একটি একক নিকটতম প্রতিবেশী ব্যবহার করার এই সহজ, উপলব্ধিমূলক ধারণাটি শক্তিশালী হতে পারে যখন আমাদের প্রশিক্ষণ সেটে একাধিক রেকর্ড থাকে। এটি পরিবর্তিত হয় যে 1-নিকটবর্তী প্রতিবেশী ডিজাইনের ভুল শ্রেণিবিন্যাসের ত্রুটির একটি ভুল শ্রেণিবিন্যাসের হার রয়েছে যা ত্রুটির দ্বিগুণের বেশি নয় যখন এটি প্রতিটি শ্রেণীর জন্য সম্ভাব্যতা ঘনত্বের ফাংশনগুলি সঠিকভাবে বুঝতে পারে৷