কম্পিউটার

ডেটা মাইনিংয়ে শ্রেণীবিভাগ এবং ভবিষ্যদ্বাণী সংক্রান্ত বিভিন্ন সমস্যা কী?


শ্রেণীবিভাগ বা ভবিষ্যদ্বাণী পর্বের নির্ভুলতা, কার্যকারিতা এবং মাপযোগ্যতা বাড়ানোর সুবিধার্থে ডেটা ব্যবহার করার জন্য নিম্নলিখিত প্রাক-প্রক্রিয়াকরণ পদক্ষেপগুলি রয়েছে যা নিম্নরূপ -

  • ডেটা পরিষ্কার করা − এটি মসৃণ পদ্ধতি এবং অনুপস্থিত মানগুলির অপারেশন ব্যবহার করে শব্দ নির্মূল বা কমাতে ডেটার প্রাক-প্রক্রিয়াকরণকে সংজ্ঞায়িত করে (উদাহরণস্বরূপ, সেই বৈশিষ্ট্যের জন্য সবচেয়ে সাধারণভাবে প্রদর্শিত মান সহ একটি অনুপস্থিত মান পুনরুদ্ধার করে, বা এর উপর প্রতিষ্ঠিত সর্বোত্তম সম্ভাব্য মান সহ পরিসংখ্যান)। যদিও বিভিন্ন শ্রেণীবিন্যাস অ্যালগরিদমগুলিতে গোলমাল বা অনুপস্থিত তথ্য পরিচালনা করার জন্য কিছু কাঠামো রয়েছে, এই পদক্ষেপটি শেখার সময় বিভ্রান্তি হ্রাস করতে সহায়তা করতে পারে৷

  • প্রাসঙ্গিকতা বিশ্লেষণ − ডেটাতে বিভিন্ন বৈশিষ্ট্য রয়েছে যা শ্রেণীবিভাগ বা ভবিষ্যদ্বাণী কাজের সাথে অপ্রাসঙ্গিক হতে পারে। উদাহরণস্বরূপ, যে সপ্তাহে একটি ব্যাঙ্ক লোন সফ্টওয়্যার পূরণ করা হয়েছিল সেই দিনের ডেটা রেকর্ডিং সফ্টওয়্যারটির সাফল্যের সাথে প্রাসঙ্গিক হওয়া অসম্ভব। তাছাড়া, কিছু ভিন্ন বৈশিষ্ট্য অপ্রয়োজনীয় হতে পারে।

    অতএব, শেখার পদ্ধতি থেকে কিছু অপ্রাসঙ্গিক বা অপ্রয়োজনীয় বৈশিষ্ট্য মুছে ফেলার জন্য ডেটাতে প্রাসঙ্গিকতা বিশ্লেষণ প্রয়োগ করা যেতে পারে। মেশিন লার্নিং-এ, এই ধাপটিকে বৈশিষ্ট্য নির্বাচন হিসাবে উল্লেখ করা হয়। এটিতে এমন বৈশিষ্ট্য রয়েছে যা অন্যথায় ধীর হতে পারে এবং সম্ভবত শেখার ধাপকে বিভ্রান্ত করতে পারে।

    সঠিকভাবে, প্রাসঙ্গিকতা বিশ্লেষণে ব্যবহৃত সময়, ফলাফল "হ্রাস" বৈশিষ্ট্য উপসেট থেকে শেখার জন্য ব্যবহৃত সময়ের সাথে সন্নিবেশিত করা হলে, এবং বৈশিষ্ট্যগুলির প্রাথমিক সেট থেকে শেখার জন্য ব্যবহৃত সময়ের চেয়ে কম হতে হবে। অতএব, এই ধরনের বিশ্লেষণ শ্রেণীবিভাগের কার্যকারিতা এবং মাপযোগ্যতা বাড়াতে সাহায্য করতে পারে।

  • ডেটা রূপান্তর - ডেটাকে একটি বৃহত্তর-স্তরের পদ্ধতিতে সাধারণীকরণ করা যেতে পারে। এই লক্ষ্যগুলির জন্য ধারণা শ্রেণিবিন্যাস ব্যবহার করা যেতে পারে। এটি ক্রমাগত-মূল্যবান বৈশিষ্ট্যগুলির জন্য বিশেষভাবে সহায়ক। উদাহরণস্বরূপ, বৈশিষ্ট্য আয়ের জন্য গাণিতিক মানগুলি নিম্ন, মাঝারি এবং উচ্চ সহ পৃথক ক্ষেত্রে সাধারণীকরণ করা যেতে পারে। একইভাবে, নামমাত্র-মূল্যবান গুণাবলী, যেমন রাস্তা, শহরের মতো বৃহত্তর-স্তরের ধারণাগুলিতে সাধারণীকরণ করা যেতে পারে।

    যেহেতু সাধারণীকরণ প্রাথমিক প্রশিক্ষণ ডেটাকে ছোট করে, তাই শেখার সময় কম ইনপুট/আউটপুট অপারেশন অন্তর্ভুক্ত করা যেতে পারে। ডেটাও স্বাভাবিক করা যেতে পারে, বিশেষ করে যখন স্নায়ু নেটওয়ার্ক বা দূরত্ব পরিমাপ সম্বলিত কৌশল শেখার ধাপে ব্যবহার করা হয়।

    সাধারণীকরণের মধ্যে একটি প্রদত্ত বৈশিষ্ট্যের জন্য সমস্ত মান স্কেল করা অন্তর্ভুক্ত যাতে তারা -1.0 থেকে 1.0 বা 0 থেকে 1.0 সহ একটি ছোট নির্দিষ্ট এলাকার মধ্যে হ্রাস পায়। দূরত্ব পরিমাপ প্রযোজ্য এই পদ্ধতিতে, উদাহরণস্বরূপ, এটি

    থেকে মূল উচ্চ রেঞ্জের (যেমন, আয়) বৈশিষ্ট্যগুলি এড়াতে পারে

  1. ডেটা মাইনিং এর কৌশল কি কি?

  2. ডেটা মাইনিংয়ে টেক্সট মাইনিংয়ের ক্ষেত্রগুলি কী কী?

  3. ডেটা গুদামের নিরাপত্তা সমস্যাগুলি কী কী?

  4. ডেটা মাইনিং ইন্টারফেস কি?