গোপনীয়তা-সংরক্ষণ ডেটা মাইনিং হল ডেটা মাইনিং-এ গোপনীয়তা সুরক্ষার প্রতিক্রিয়া হিসাবে ডেটা মাইনিং গবেষণার একটি অ্যাপ্লিকেশন। একে বলা হয় গোপনীয়তা-বর্ধিত বা গোপনীয়তা-সংবেদনশীল ডেটা মাইনিং। এটি মৌলিক সংবেদনশীল ডেটা মানগুলি প্রকাশ না করে সত্যিকারের ডেটা মাইনিং ফলাফল প্রাপ্ত করার সাথে সম্পর্কিত৷
বেশিরভাগ গোপনীয়তা-সংরক্ষণকারী ডেটা মাইনিং পদ্ধতি গোপনীয়তা সংরক্ষণ বাস্তবায়নের জন্য ডেটাতে বিভিন্ন রূপান্তর ব্যবহার করে। সাধারণত, এই ধরনের পদ্ধতি গোপনীয়তা বজায় রাখার জন্য বর্ণনার কণিকা হ্রাস করে।
উদাহরণস্বরূপ, তারা একক ব্যবহারকারী থেকে ব্যবহারকারী গোষ্ঠীতে ডেটা সাধারণীকরণ করতে পারে। গ্রানুলারিটি এই হ্রাস ডেটার ক্ষতি এবং সম্ভবত ডেটা মাইনিং ফলাফলের উপযোগিতা ঘটায়। এটি ডেটা হারানো এবং গোপনীয়তার মধ্যে ট্রেড-অফ৷
৷গোপনীয়তা-সংরক্ষণকারী ডেটা মাইনিং পদ্ধতিগুলিকে নিম্নলিখিত উপাদানগুলিতে সংজ্ঞায়িত করা যেতে পারে যা নিম্নরূপ -
র্যান্ডমাইজেশন পদ্ধতি - এই পদ্ধতিগুলি ডেটার বিভিন্ন মান মাস্ক করতে ডেটাতে শব্দ সন্নিবেশ করে। যোগ করা শব্দটি বড় হওয়া উচিত যাতে পৃথক ডেটা মানগুলি, বিশেষ করে সংবেদনশীলগুলি, আনা না যায়৷
এটি অবশ্যই দক্ষতার সাথে যোগ করতে হবে যাতে ডেটা মাইনিংয়ের চূড়ান্ত ফলাফলগুলি সাধারণত সংরক্ষিত হয়। বিভ্রান্তিকর ডেটা থেকে সামগ্রিক বিতরণ পরিবর্তন করার জন্য বিভিন্ন পদ্ধতি ডিজাইন করা হয়েছে৷
k-অনামী এবং l-বৈচিত্র্য পদ্ধতি − এই উভয় পদ্ধতিই একক ডেটা পরিবর্তন করে যাতে সেগুলি নির্দিষ্টভাবে চিহ্নিত করা যায় না। কে-অনামিতা পদ্ধতিতে, ডেটা উপস্থাপনার গ্রানুলারিটি পর্যাপ্তভাবে হ্রাস করা হয় যাতে কিছু প্রদত্ত ডেটা মানচিত্রে ন্যূনতম k অন্যান্য রেকর্ডগুলিতে ডেটার মানচিত্র তৈরি হয়। এটি সাধারণীকরণ এবং দমনের মতো কৌশল প্রয়োজন।
কে-অজ্ঞাতনামা পদ্ধতি দুর্বল, যদি একটি গোষ্ঠীর মধ্যে সংবেদনশীল মানগুলির একটি অভিন্নতা থাকে, তবে সেই মানগুলি পরিবর্তিত ডেটার জন্য অনুমান করা যেতে পারে। l-ডাইভারসিটি মডেলটি বেনামী প্রদানের জন্য বিভিন্ন ধরনের সংবেদনশীল মান প্রয়োগ করে এই দুর্বলতা পরিচালনা করার জন্য ডিজাইন করা হয়েছিল। উদ্দেশ্য হ'ল একক রেকর্ডগুলিকে সঠিকভাবে চিনতে প্রতিপক্ষের জন্য ডেটা বৈশিষ্ট্যগুলির সংমিশ্রণ ব্যবহার করা যথেষ্ট কঠিন।
ডিস্ট্রিবিউটেড গোপনীয়তা সংরক্ষণ − বড় ডেটা সেটগুলিকে অনুভূমিকভাবে বিভাজন এবং বিতরণ করা যেতে পারে (অর্থাৎ, ডেটা সেটগুলিকে ডেটার একাধিক উপসেটে বিভক্ত করা হয় এবং বিভিন্ন সাইটে বিতরণ করা হয়) বা উল্লম্বভাবে (অর্থাৎ, ডেটা সেটগুলি তাদের বৈশিষ্ট্যগুলির দ্বারা বিভক্ত এবং বিতরণ করা হয়), বা একটিতে উভয়ের সেট।
যদিও একক সাইটগুলিকে তাদের সম্পূর্ণ ডেটা সেটগুলি ভাগ করার প্রয়োজন হয় না, তারা বেশ কয়েকটি প্রোটোকল ব্যবহার করে সীমিত ডেটা ভাগ করে নেওয়ার জন্য সম্মতি দিতে পারে। এই ধরনের পদ্ধতিগুলির সম্পূর্ণ প্রভাব হল প্রতিটি একক বস্তুর জন্য গোপনীয়তা সমর্থন করা, কিছু ডেটার উপর সামগ্রিক ফলাফল পরিবর্তন করার সময়৷
ডেটা মাইনিং ফলাফলের কার্যকারিতা ডাউনগ্রেড করা − বেশ কিছু ক্ষেত্রে, যদিও ডেটা পাওয়া যায় না, ডেটা মাইনিংয়ের আউটপুট (যেমন, অ্যাসোসিয়েশনের নিয়ম এবং শ্রেণীবিভাগের মডেল) গোপনীয়তার লঙ্ঘন হতে পারে। সমাধানটি হতে পারে ডেটা বা খনির ফলাফল পরিবর্তন করে ডেটা মাইনিংয়ের দক্ষতা হ্রাস করা, যার মধ্যে কিছু অ্যাসোসিয়েশন নিয়ম লুকানো বা কিছু শ্রেণিবিন্যাসের মডেলগুলিকে কিছুটা বিকৃত করা সহ।