পাইথন - কীভাবে এবং কোথায় ফিচার স্কেলিং প্রয়োগ করবেন?

এটি ডেটা প্রাক-প্রক্রিয়াকরণের একটি ধাপ যা স্বাধীন ভেরিয়েবল বা ডেটার বৈশিষ্ট্যগুলিতে প্রয়োগ করা হয়। এটি মূলত একটি নির্দিষ্ট পরিসরের মধ্যে ডেটা স্বাভাবিক করতে সাহায্য করে।

কেন স্কেলিং?

বেশিরভাগ সময়, আপনার ডেটাসেটে মাত্রা, একক এবং পরিসরে অত্যন্ত পরিবর্তিত বৈশিষ্ট্য থাকবে। কিন্তু যেহেতু, বেশিরভাগ মেশিন লার্নিং অ্যালগরিদম তাদের গণনায় দুটি ডেটা পয়েন্টের মধ্যে ইউক্লিডিয়ান দূরত্ব ব্যবহার করে, এটি একটি সমস্যা।

যদি একা ছেড়ে দেওয়া হয়, এই অ্যালগরিদমগুলি শুধুমাত্র ইউনিটগুলিকে উপেক্ষা করার বৈশিষ্ট্যগুলির মাত্রা গ্রহণ করে। ফলাফল বিভিন্ন ইউনিট, 5kg এবং 5000gms মধ্যে ব্যাপকভাবে পরিবর্তিত হবে।

উচ্চ মাত্রার বৈশিষ্ট্যগুলি দূরত্বের গণনায় কম মাত্রার বৈশিষ্ট্যগুলির তুলনায় অনেক বেশি ওজনের হবে৷

এই প্রভাব দমন করার জন্য, আমাদের সমস্ত বৈশিষ্ট্যকে একই মাত্রায় আনতে হবে। এটি স্কেলিং দ্বারা অর্জন করা যেতে পারে।

কিভাবে বৈশিষ্ট্য স্কেল করবেন?

স্ট্যান্ডার্ডাইজেশন − মানকে তাদের Z স্কোর দ্বারা প্রতিস্থাপন করে।
$$x^{\prime}=\frac{x\:-\:\bar{x}}{\sigma}$$এটি বৈশিষ্ট্যগুলিকে তাদের গড় μ =0 এবং আদর্শ বিচ্যুতি σ =1 দিয়ে পুনরায় বিতরণ করে। sklearn.preprocessing.scale আমাদের পাইথনে প্রমিতকরণ বাস্তবায়নে সাহায্য করে।
মান স্বাভাবিককরণ −
$$x^{\prime}=\frac{x\:-\:mean(x)}{\max(x)\:-\:\min(x)}$$
এই বিতরণে -1 এবং 1 এর মধ্যে মান থাকবে μ=0 সহ। মানককরণ এবং মান স্বাভাবিকীকরণ অ্যালগরিদমগুলির জন্য ব্যবহার করা যেতে পারে যা শূন্য কেন্দ্রিক ডেটা অনুমান করে যেমন প্রধান উপাদান বিশ্লেষণ(PCA) .
সর্বনিম্ন-সর্বোচ্চ স্কেলিং
$$x^{\prime}=\frac{x\:-\:\min(x)}{\max(x)\:-\:\min(x)}$$
এই স্কেলিং 0 এবং 1 এর মধ্যে মান আনে।
ইউনিট ভেক্টর −
$$x^{\prime}=\frac{x}{\lVert\:x\:\rVert}$$
সম্পূর্ণ বৈশিষ্ট্য ভেক্টরকে ইউনিট দৈর্ঘ্য বিবেচনা করে স্কেলিং করা হয়।মিন-ম্যাক্স স্কেলিং এবং ইউনিট ভেক্টর কৌশলগুলি পরিসরের মান তৈরি করে [0,1]। হার্ড বাউন্ডারি সহ বৈশিষ্ট্যগুলি নিয়ে কাজ করার সময় এটি বেশ কার্যকর। উদাহরণস্বরূপ, চিত্র ডেটা নিয়ে কাজ করার সময়, রঙগুলি শুধুমাত্র 0 থেকে 255 পর্যন্ত হতে পারে৷

কখন স্কেল করবেন?

এখানে যে কোনো অ্যালগরিদম অনুসরণ করতে হবে যা দূরত্ব গণনা করে বা স্বাভাবিকতা অনুমান করে, আপনার বৈশিষ্ট্যগুলিকে স্কেল করে।

অ্যালগরিদমের কিছু উদাহরণ যেখানে বৈশিষ্ট্য স্কেলিং বিষয়গুলি হল −

ইউক্লিডীয় দূরত্ব পরিমাপ সহ k- নিকটতম প্রতিবেশীরা মাত্রার প্রতি সংবেদনশীল এবং তাই সমস্ত বৈশিষ্ট্যকে সমানভাবে ওজন করার জন্য মাপতে হবে।
প্রিন্সিপাল কম্পোনেন্ট অ্যানালাইসিস (PCA) সম্পাদন করার সময় স্কেলিং গুরুত্বপূর্ণ। PCA সর্বাধিক বৈচিত্র সহ বৈশিষ্ট্যগুলি পাওয়ার চেষ্টা করে এবং উচ্চ মাত্রার বৈশিষ্ট্যগুলির জন্য বৈচিত্রটি উচ্চ। এটি PCA-কে উচ্চ মাত্রার বৈশিষ্ট্যের দিকে নিয়ে যায়।
আমরা স্কেলিং করে গ্রেডিয়েন্ট ডিসেন্টের গতি বাড়াতে পারি। এর কারণ হল θ দ্রুত ছোট পরিসরে এবং ধীরে ধীরে বড় পরিসরে নেমে আসবে, এবং তাই যখন ভেরিয়েবলগুলি খুব অসম হয় তখন অদক্ষভাবে অদক্ষভাবে নিচে নামবে৷
গাছ ভিত্তিক মডেল দূরত্ব ভিত্তিক মডেল নয় এবং বিভিন্ন বৈশিষ্ট্যের পরিসীমা পরিচালনা করতে পারে। তাই, গাছের মডেলিং করার সময় স্কেলিং প্রয়োজন হয় না।
লিনিয়ার ডিসক্রিমিন্যান্ট অ্যানালাইসিস (এলডিএ), নেভ বেইসের মতো অ্যালগরিদমগুলি এটি পরিচালনা করার জন্য সজ্জিত ডিজাইন দ্বারা এবং সেই অনুযায়ী বৈশিষ্ট্যগুলিকে ওজন দেয়৷ এই অ্যালগরিদমগুলিতে একটি বৈশিষ্ট্য স্কেলিং সম্পাদন করা খুব বেশি প্রভাব ফেলতে পারে না৷