কম্পিউটার

কীভাবে স্বয়ংক্রিয় নথির শ্রেণীবিভাগ করা যায়?


স্বয়ংক্রিয় নথি শ্রেণীবিভাগ একটি অপরিহার্য পাঠ্য খনির পরিষেবা কারণ প্রচুর সংখ্যক অন-লাইন ফাইলের অস্তিত্ব, নথি পুনরুদ্ধার এবং ধারাবাহিক বিশ্লেষণকে সমর্থন করার জন্য এই ধরনের রেকর্ডগুলিকে স্বয়ংক্রিয়ভাবে ক্লাসে সংগঠিত করতে সক্ষম হওয়া অবিরাম কিন্তু গুরুত্বপূর্ণ৷

নথির শ্রেণীবিভাগ স্বয়ংক্রিয় বিষয় ট্যাগিং (যেমন, নথিতে লেবেল বরাদ্দ করা), বিষয় নির্দেশিকা নির্মাণ, এবং নথি লেখার শৈলী সনাক্তকরণ এবং নথির একটি সেট সম্পর্কিত হাইপারলিঙ্কগুলির লক্ষ্য নির্ধারণে ব্যবহৃত হয়েছে৷

একটি সাধারণ পদ্ধতি নিম্নরূপ - প্রথমত, পূর্ব-শ্রেণীবদ্ধ ফাইলগুলির একটি গ্রুপকে প্রশিক্ষণ সেট হিসাবে নেওয়া হয়। একটি শ্রেণীবিভাগ স্কিম পরিবর্তন করার জন্য প্রশিক্ষণ সেট বিশ্লেষণ করা হয়। এই ধরনের একটি শ্রেণীবিভাগ স্কিম একটি টেস্টিং ohase সঙ্গে পরিমার্জিত করা প্রয়োজন. তাই প্রাপ্ত শ্রেণীবিভাগ স্কিমটি বেশ কয়েকটি অনলাইন ফাইলের শ্রেণীবিভাগের জন্য ব্যবহার করা যেতে পারে।

এই পর্যায়টি রিলেশনাল রেকর্ডের শ্রেণীবিভাগের অনুরূপ ঘটে। রিলেশনাল ডেটা সুগঠিত হয় যেমন প্রতিটি টিপল অ্যাট্রিবিউট-মান জোড়ার একটি গ্রুপ দ্বারা বর্ণনা করা হয়।

উদাহরণস্বরূপ, টিপলে {রৌদ্রোজ্জ্বল, উষ্ণ, শুষ্ক, বাতাস নয়, টেনিস খেলুন}, "রৌদ্রোজ্জ্বল" বৈশিষ্ট্য আবহাওয়ার দৃষ্টিভঙ্গির সমতুল্য, বৈশিষ্ট্য তাপমাত্রার সমতুল্য "উষ্ণ" ইত্যাদি।

শ্রেণীবিন্যাস বিশ্লেষণ নির্ধারণ করে যে কোনো ব্যক্তি টেনিস খেলবে কিনা তা নির্ধারণ করার ক্ষেত্রে বৈশিষ্ট্য-মান জোড়ার কোন গ্রুপের সর্বোচ্চ বৈষম্যমূলক ক্ষমতা রয়েছে৷ অন্য পদে, ডকুমেন্ট ডাটাবেসগুলি অ্যাট্রিবিউট-মান পেয়ার অনুযায়ী গঠন করা হয় না।

এটি নথির একটি সেটের সাথে যুক্ত কীওয়ার্ডের একটি সেট বৈশিষ্ট্য বা মাত্রার একটি নির্দিষ্ট সেটে সংগঠিত হয় না। যদি আমরা নথিতে প্রতিটি স্বতন্ত্র কীওয়ার্ড, শব্দ বা বৈশিষ্ট্যকে একটি মাত্রা হিসাবে দেখি, তাহলে নথির একটি সেটে হাজার হাজার মাত্রা থাকতে পারে। সুতরাং, এটি সাধারণত রিলেশনাল ডেটা-ভিত্তিক শ্রেণীবিভাগ পদ্ধতি ব্যবহার করা হয়, যার মধ্যে সিদ্ধান্ত গাছ বিশ্লেষণ সহ, নথি ডেটাবেসগুলির শ্রেণীবিভাগের জন্য দক্ষ হতে পারে না৷

ভেক্টর-স্পেস মডেল অনুসারে, দুটি ফাইল একই হয় যদি তারা একই ফাইল ভেক্টর ভাগ করে। এই মডেলটি k-নিকটবর্তী-প্রতিবেশী ক্লাসিফায়ার নির্মাণে অনুপ্রাণিত করে, এই অন্তর্দৃষ্টির উপর ভিত্তি করে যে অনুরূপ নথিগুলিকে একই শ্রেণীর লেবেল বরাদ্দ করা হবে বলে আশা করা হচ্ছে।

এটি সমস্ত প্রশিক্ষণ নথিকে সহজভাবে সূচী করতে পারে, প্রতিটি তার সংশ্লিষ্ট ক্লাস লেবেলের সাথে যুক্ত। যখন একটি পরীক্ষার নথি জমা দেওয়া হয়, তখন আমরা এটিকে IR সিস্টেমের একটি ক্যোয়ারী হিসাবে বিবেচনা করতে পারি এবং প্রশিক্ষণ সেট থেকে k নথিগুলি পুনরুদ্ধার করতে পারি যা কোয়েরির সাথে সবচেয়ে বেশি মিল, যেখানে k হল একটি টিউনযোগ্য ধ্রুবক৷

পরীক্ষা ফাইলের ক্লাস লেবেল নির্ধারণ করা যেতে পারে তার k নিকটতম প্রতিবেশীদের ক্লাস লেবেল বিতরণের উপর নির্ভর করে। এই ধরনের শ্রেণী লেবেল বিতরণও পরিমার্জিত হতে পারে, যেমন কাঁচা গণনার পরিবর্তে ওজনযুক্ত গণনার উপর ভিত্তি করে, অথবা বৈধতার জন্য লেবেলযুক্ত নথির একটি অংশ আলাদা করে রাখা।


  1. কিভাবে একটি HTML ডকুমেন্ট তৈরি করবেন?

  2. কিভাবে SciPy পাইথনে পৃথক ফুরিয়ার রূপান্তর সঞ্চালিত হতে পারে?

  3. আমি কীভাবে আমার ডেটা ব্যাকআপ করতে পারি?

  4. কিভাবে একটি অ্যান্টিভাইরাস পিসির গতি বাড়াতে পারে?