কম্পিউটার

C5 প্রুনিং অ্যালগরিদম কি?


C5 হল ডিসিশন-ট্রি অ্যালগরিদমের বর্তমান সংস্করণ যা অস্ট্রেলিয়ান গবেষক, জে. রস কুইনলান কয়েক বছর ধরে বিকাশ ও পরিমার্জন করছেন। একটি পূর্ববর্তী সংস্করণ, ID3, 1986 সালে প্রতিষ্ঠিত, মেশিন লার্নিংয়ের ক্ষেত্রে প্রভাবশালী ছিল এবং এর উত্তরসূরিরা একাধিক বাণিজ্যিক ডেটা মাইনিং পরিষেবাগুলিতে ব্যবহৃত হয়৷

C5 দ্বারা বৃদ্ধিপ্রাপ্ত গাছগুলি CART দ্বারা উন্নত করা গাছগুলির সমান৷ CART-এর মতো, C5 অ্যালগরিদম প্রথমে একটি ওভারফিট ট্রিকে উন্নত করে এবং তারপরে আরও গতিশীল মডেল তৈরি করতে এটিকে আবার ছাঁটাই করে। ছাঁটাই পদ্ধতি জটিল, কিন্তু C5 প্রার্থী উপবৃক্ষের মধ্যে থেকে নির্বাচন করার জন্য একটি বৈধতা সেট ব্যবহার করে না।

গাছ বাড়ানোর জন্য ব্যবহৃত অনুরূপ ডেটা কীভাবে গাছটি ছাঁটাই করা উচিত তা নির্ধারণ করতেও ব্যবহৃত হয়। এটি একাডেমিক বিশ্বে অ্যালগরিদমের ভিত্তিকে প্রতিফলিত করতে পারে, যেখানে পূর্বে, বিশ্ববিদ্যালয়ের গবেষকদের প্রশিক্ষণ সেটের জন্য ব্যবহার করার জন্য যথেষ্ট পরিমাণে বাস্তব রেকর্ডের উপর তাদের হাত পেতে একটি জটিল সময় ছিল। তদনুসারে, তারা তাদের দুর্বল ডেটাসেটগুলি থেকে চূড়ান্ত কিছু ড্রপ ডেটা ঢেলে দেওয়ার চেষ্টা করার জন্য অনেক সময় এবং প্রচেষ্টা ব্যয় করেছে—একটি সমস্যা যা ব্যবসায়িক জগতের ডেটা মাইনাররা দেখে না।

C5 প্রতিটি নোডে ত্রুটির হার নির্ধারণ করে এবং সত্যিকারের ত্রুটির হার যথেষ্ট খারাপ তা বিবেচনা করে গাছটি ছাঁটাই করে। যদি N রেকর্ডগুলি একটি নোডে উপস্থিত হয় এবং তাদের মধ্যে E ভুলভাবে সংজ্ঞায়িত করা হয়, তাই সেই নোডে ত্রুটির হার হল E/N৷

একটি পাতায় দেখার সম্ভাবনা সবচেয়ে খারাপ ত্রুটি খরচের একটি অনুমান সহ উপস্থিত হওয়ার জন্য C5-এর পরিসংখ্যানগত নমুনার সাথে একটি সাদৃশ্য প্রয়োজন। সাদৃশ্যটি পাতায় তথ্যের কথা চিন্তা করে কাজ করে যেমন ট্রায়ালের ক্রমানুসারের ফলাফলকে সংজ্ঞায়িত করে প্রতিটিতে দুটি সম্ভাব্য ফলাফলের একটি হতে পারে।

C5 বিবেচনা করে যে প্রশিক্ষণের রেকর্ডে পরিলক্ষিত ত্রুটির সংখ্যা এই পরিসরের নিম্ন প্রান্ত, এবং পাতার পূর্বাভাসিত ত্রুটির খরচ, অদেখা রেকর্ডে E/N পাওয়ার জন্য উচ্চ প্রান্তটিকে প্রতিস্থাপন করে। নোড যত কম, ত্রুটি খরচ তত বেশি। যখন একটি নোডে একাধিক ত্রুটির উচ্চ-পরিমাণ অনুমান তার শিশুদের ত্রুটির অনুমানের চেয়ে কম হয়, তাই শিশুদের ছাঁটাই করা হয়৷

একটি মডেলের মূল লক্ষ্য হল পূর্বের অদেখা তথ্যের উপর সামঞ্জস্যপূর্ণ ভবিষ্যদ্বাণী তৈরি করা। কিছু নিয়ম যা সেই লক্ষ্য অর্জন করতে পারে না মডেল থেকে সরানো উচিত। কিছু ডেটা মাইনিং সরঞ্জাম গ্রাহককে একটি সিদ্ধান্ত গাছকে ম্যানুয়ালি ছাঁটাই করতে সক্ষম করে।

এটি একটি সহায়ক সুবিধা, তবে এটি ডেটা মাইনিং সফ্টওয়্যারের দিকে এগিয়ে যেতে পারে যা বিকল্প হিসাবে স্বয়ংক্রিয় গতিশীল-ভিত্তিক ছাঁটাই সমর্থন করে। "প্রশিক্ষণ গোষ্ঠীর ফলাফলের বন্টন থেকে ভিন্ন যাচাইকরণ সেট ফলাফলের দৃষ্টিভঙ্গি বিতরণের চেয়ে একটি বিভক্তি অস্বীকার করার জন্য এই ধরনের আবেদনের একটি কম বিষয়গত উপাদান থাকা প্রয়োজন৷


  1. CART প্রুনিং অ্যালগরিদম কি?

  2. টেম্পোরাল ডেটা মাইনিং কি?

  3. ডেটা গুদামের ডিজাইন কি?

  4. স্টেগানোগ্রাফির ব্যবহার কী?