কম্পিউটার

ওয়েব মাইনিংয়ে পেজ র‍্যাঙ্ক অ্যালগরিদম কী?


PageRank হল ওয়েব পৃষ্ঠাগুলিকে বস্তুনিষ্ঠ এবং যান্ত্রিকভাবে রেটিং করার একটি পদ্ধতি, মানুষের আগ্রহের প্রতি মনোযোগ দিয়ে। ওয়েব সার্চ ইঞ্জিনগুলিকে অনভিজ্ঞ ক্লায়েন্টদের সাথে সংগঠিত করতে হবে এবং প্রচলিত র‌্যাঙ্কিং পরিষেবাগুলিকে কারসাজি করে পেজ তৈরি করতে হবে। কিছু মূল্যায়ন পদ্ধতি যা ওয়েব পৃষ্ঠাগুলির প্রতিলিপিযোগ্য প্রকৃতি গণনা করে ম্যানিপুলেশন থেকে অরক্ষিত।

কাজটি হল ওয়েবের হাইপারলিঙ্ক কাঠামোর সুবিধা নেওয়া প্রতিটি ওয়েব পৃষ্ঠার একটি বিশ্বব্যাপী গুরুত্ব র‌্যাঙ্কিং তৈরি করা। এই র‍্যাঙ্কিংকে পেজর‍্যাঙ্ক বলা হয়৷

ওয়েবের মেকানিজম প্রায় 150 মিলিয়ন নোড (ওয়েব পেজ) এবং 1.7 বিলিয়ন প্রান্ত (হাইপারলিঙ্ক) সহ একটি গ্রাফের উপর নির্ভর করে। যদি ওয়েব পেজ A এবং B পৃষ্ঠা C এর সাথে লিঙ্ক করে, A এবং B কে C এর ব্যাকলিঙ্ক বলা হয়। সাধারণভাবে, উচ্চ লিঙ্কযুক্ত পৃষ্ঠাগুলি আরও গুরুত্বপূর্ণ। এইভাবে তাদের আরও ব্যাকলিংক রয়েছে এবং গুরুত্বপূর্ণ ব্যাকলিংকগুলি পরিমাণে কম।

উদাহরণস্বরূপ, Yahoo থেকে একটি পৃথক ব্যাকলিংক সহ একটি ওয়েব পৃষ্ঠাকে অজানা বা ব্যক্তিগত সাইট থেকে একাধিক ব্যাকলিংক সহ একটি পৃষ্ঠার চেয়ে উচ্চতর স্থান দিতে হবে। একটি ওয়েব পেজের ব্যাকলিঙ্কগুলির মোট র‍্যাঙ্ক খুব বড় হলে একটি বিশাল র‍্যাঙ্ক থাকে৷

পেজর‍্যাঙ্কের সরলীকৃত সংস্করণটি নিম্নরূপ:লেট u, v ওয়েব পেজ হতে দিন। সুতরাং বুকে পৃষ্ঠাগুলির গ্রুপ হতে দিন যা আপনাকে নির্দেশ করে। অধিকন্তু, Nv কে v থেকে একাধিক লিঙ্ক হতে দিন। c <1 কে স্বাভাবিককরণের জন্য একটি ফ্যাক্টর হতে দিন। এটি একটি সরল র‍্যাঙ্কিং R বর্ণনা করতে পারে, যা PageRank-

-এর একটি সরলীকৃত ব্যাখ্যা।

$$\mathrm{R(u)\:=\:c\displaystyle\sum\limits_{u\in{Bu}}\frac{R(v)}{N_v}}$$

একটি পৃষ্ঠার র‌্যাঙ্ক তার ফরোয়ার্ড সংযোগগুলির মধ্যে সমানভাবে ভাগ করা হয় যাতে তারা যে পৃষ্ঠাগুলিকে চিহ্নিত করে তার র‌্যাঙ্কগুলিও প্রদান করে। সমীকরণটি পুনরাবৃত্তিমূলক কিন্তু এই সরলীকৃত ফাংশনের সাথে একটি সমস্যা রয়েছে৷

যদি দুটি ওয়েব পৃষ্ঠা একে অপরের দিকে নির্দেশ করে কিন্তু অন্য কোনো পৃষ্ঠা না থাকে এবং অন্য কোনো ওয়েব পৃষ্ঠা তাদের একটির দিকে নির্দেশ করে, তাহলে পুনরাবৃত্তির সময় একটি লুপ তৈরি হবে। এই লুপটি র‌্যাঙ্ককে একত্র করবে কিন্তু কখনই কোনও র‌্যাঙ্ক শেয়ার করবে না। আউটডেজ ছাড়া গ্রাফে লুপ দ্বারা গঠিত এই ফাঁদটিকে র‌্যাঙ্ক সিঙ্ক বলা হয়।

পেজ র‍্যাঙ্ক অ্যালগরিদম ডাটাবেস থেকে প্রতিটি ইউআরএলকে একটি সংখ্যায় রূপান্তরের মাধ্যমে শুরু হয়। পরবর্তী ধাপ হল ওয়েব পেজ চিনতে পূর্ণসংখ্যা আইডি ব্যবহার করে একটি ডাটাবেসে প্রতিটি হাইপারলিঙ্ক সংরক্ষণ করা। প্যারেন্ট আইডি দ্বারা লিঙ্ক স্ট্রাকচার বাছাই এবং ঝুলে থাকা লিঙ্কগুলি সরানোর পরে পুনরাবৃত্তি শুরু হয়৷

অভিসার গতি বাড়ানোর জন্য সেরা প্রাথমিক অ্যাসাইনমেন্ট নির্বাচন করতে হবে। বর্তমান সময়ের ধাপের ওজনগুলি মেমরিতে রাখা হয় এবং পূর্ববর্তী ওজনগুলি রৈখিক সময়ে ডিস্কে অ্যাক্সেস করা হয়। ওজন একত্রিত হওয়ার পরে ঝুলন্ত সংযোগটি আবার ঢোকানো হয় এবং র‌্যাঙ্কিং পুনরায় গণনা করা হয়। গণনাটি ভালভাবে প্রয়োগ করে কিন্তু অভিসারী মানদণ্ড সহজ করে এবং আরও কার্যকর অপ্টিমাইজেশন পদ্ধতি ব্যবহার করে দ্রুত করা যেতে পারে৷


  1. ওয়েব ব্যবহার মাইনিং এর নিয়ম কি?

  2. টেম্পোরাল ডেটা মাইনিং কি?

  3. ওয়েব মাইনিংয়ের অ্যাপ্লিকেশনগুলি কী কী?

  4. ওয়েব ব্যবহার মাইনিং কি?