কম্পিউটার

ডেটা ট্রান্সফরমেশন কি?


ডেটা ট্রান্সফরমেশনে, ডেটা রূপান্তরিত হয় বা খনির জন্য উপযুক্ত ফর্মগুলিতে একত্রিত হয়। ডেটা ট্রান্সফরমেশন নিম্নলিখিত −

কে জড়িত করতে পারে

মসৃণ - এটি ডেটা থেকে শব্দ অপসারণ করতে কাজ করতে পারে। এই ধরনের পদ্ধতিতে বিনিং, রিগ্রেশন এবং ক্লাস্টারিং থাকে।

সমষ্টি - একত্রীকরণে, যেখানে সারাংশ বা একত্রীকরণ ক্রিয়াকলাপগুলি ডেটাতে প্রয়োগ করা হয়৷ উদাহরণস্বরূপ, দৈনিক বিক্রয় ডেটা মাসিক এবং বার্ষিক মোট পরিমাণ গণনা করতে একত্রিত হতে পারে। এই পর্যায়টি সাধারণত একাধিক গ্রানুলিটিতে ডেটা বিশ্লেষণের জন্য একটি ডেটা কিউব তৈরিতে ব্যবহৃত হয়।

সাধারণকরণ − সাধারণীকরণে, যেখানে নিম্ন-স্তরের বা "আদিম" (কাঁচা) ডেটা বৃহত্তর-স্তরের ধারণা দ্বারা ধারণার শ্রেণিবিন্যাস ব্যবহারের মাধ্যমে পুনরুদ্ধার করা হয়। উদাহরণস্বরূপ, রাস্তার মতো শ্রেণীবদ্ধ বৈশিষ্ট্যগুলিকে শহর বা দেশের মতো বৃহত্তর-স্তরের ধারণাগুলিতে সাধারণীকরণ করা যেতে পারে। একইভাবে, বয়সের মতো সংখ্যাসূচক বৈশিষ্ট্যের মানগুলিকে যুব, মধ্যবয়সী এবং বয়স্কদের মতো বৃহত্তর-স্তরের ধারণাগুলিতে ম্যাপ করা যেতে পারে৷

স্বাভাবিককরণ − স্বাভাবিকীকরণে, যেখানে বৈশিষ্ট্য ডেটা একটি ছোট নির্দিষ্ট সীমার মধ্যে পড়ার জন্য স্কেল করা হয়, যেমন −1.0 থেকে 1.0, বা 0.0 থেকে 1.0৷

অ্যাট্রিবিউট নির্মাণ − বৈশিষ্ট্য নির্মাণে, যেখানে মাইনিং প্রক্রিয়া সহজতর করার জন্য প্রদত্ত বৈশিষ্ট্যগুলির সেট থেকে নতুন বৈশিষ্ট্যগুলি বিকাশ করা হয় এবং যোগ করা হয়৷

স্মুথিং হল ডেটা ক্লিনিং-এর একটি ফর্ম এবং ডেটা ক্লিনিং প্রক্রিয়ায় এটিকে সম্বোধন করা হয়েছিল যেখানে ব্যবহারকারীরা ডেটার অসঙ্গতিগুলি সংশোধন করতে রূপান্তরগুলি নির্দিষ্ট করে। একত্রিতকরণ এবং সাধারণীকরণ ডেটা হ্রাসের ফর্ম হিসাবে প্রদান করে। একটি অ্যাট্রিবিউটকে তার মানগুলিকে স্কেল করে স্বাভাবিক করা হয় যাতে তারা 0.0 থেকে 1.0 সহ একটি ছোট নির্দিষ্ট ক্রমে হ্রাস পায়৷

নরমালাইজেশন বিশেষত নিউরাল নেটওয়ার্ক সম্বলিত শ্রেণীবিন্যাস অ্যালগরিদম বা দূরত্ব পরিমাপ যেমন নিকটতম-প্রতিবেশী শ্রেণীবিভাগ এবং ক্লাস্টারিংয়ের জন্য সহায়ক। ক্লাসিফিকেশন মাইনিংয়ের জন্য যদি নিউরাল নেটওয়ার্ক ব্যাকপ্রোপগেশন অ্যালগরিদম ব্যবহার করা হয়, প্রশিক্ষণের টিপলে পরিমাপ করা প্রতিটি বৈশিষ্ট্যের জন্য ইনপুট মান স্বাভাবিক করা শেখার পর্যায়ে গতি বাড়াতে সাহায্য করবে।

দূরত্ব-ভিত্তিক পদ্ধতির জন্য, স্বাভাবিককরণ প্রাথমিকভাবে বড় পরিসরের বৈশিষ্ট্যগুলিকে (যেমন, আয়) প্রাথমিকভাবে ছোট পরিসরের (যেমন, বাইনারি অ্যাট্রিবিউটগুলি) সহ অতিরিক্ত ওজনের বৈশিষ্ট্যগুলি থেকে প্রতিরোধ করতে সহায়তা করে। ডেটা স্বাভাবিককরণের জন্য অনেকগুলি পদ্ধতি রয়েছে যা নিম্নরূপ -

সর্বাধিক স্বাভাবিককরণ - এটি মূল ডেটাতে একটি রৈখিক রূপান্তর প্রয়োগ করে। ধরুন সেই minA এবং সর্বোচ্চA একটি অ্যাট্রিবিউটের সর্বনিম্ন এবং সর্বোচ্চ মান হল, A. সর্বনিম্ন-সর্বোচ্চ স্বাভাবিককরণ একটি মান ম্যাপ করে, v, A থেকে v পরিসরে [new_minA , new_maxA ] কম্পিউটিং দ্বারা

$$v'=\frac{v-min_{A}}{max_{A}-min_{A}}(নতুন\_max_{A}- নতুন\_min_{A})+নতুন\_min_{A}$$

জেড-স্কোর স্বাভাবিককরণ − z-স্কোর স্বাভাবিকীকরণে (বা শূন্য-গড় স্বাভাবিককরণ), A-এর গড় এবং মানক বিচ্যুতির উপর ভিত্তি করে একটি বৈশিষ্ট্য, A-এর মান স্বাভাবিক করা হয়। A এর মান, v, A-কে স্বাভাবিক করা হয় v ' কম্পিউটিং দ্বারা

$$v'=\frac{v-A^{'}}{\sigma_{A}}$$

যেখানে A এবং σA অ্যাট্রিবিউট A-এর যথাক্রমে গড় এবং প্রমিত বিচ্যুতি। স্বাভাবিককরণের এই পদ্ধতিটি কাজে লাগে যখন প্রকৃত সর্বনিম্ন এবং সর্বোচ্চ A অ্যাট্রিবিউট অজানা থাকে, অথবা যখন ন্যূনতম-সর্বোচ্চ স্বাভাবিককরণে আধিপত্য বিস্তারকারী থাকে।

দশমিক স্কেলিং − দশমিক স্কেলিং দ্বারা স্বাভাবিককরণ A অ্যাট্রিবিউটের মানের দশমিক বিন্দু পরিবর্তন করে স্বাভাবিক করে। A-এর সর্বোচ্চ পরম মানের উপর ভিত্তি করে স্থানান্তরিত দশমিক বিন্দুর সংখ্যা। A-এর মান, v, v ′ কম্পিউটিং দ্বারা

$$v'=\frac{v}{10^{j}}$$

যেখানে j হল ক্ষুদ্রতম পূর্ণসংখ্যা যেমন সর্বোচ্চ (|v |)<1.


  1. ডেটা সেন্টার কি?

  2. ELT কি?

  3. OLAP কি?

  4. স্ট্রিম কি?