AI ইনফারেন্স পারফরম্যান্সকে প্রভাবিত করে অদেখা সংস্করণ সংক্রান্ত সমস্যা

মডেলটি প্রত্যাবর্তন করেনি। আপনি একটি বাগ পাঠাননি. প্ল্যাটফর্ম এটি পরিবর্তন করেছে৷

আপনার প্রোডাকশন এআই অ্যাপ্লিকেশনগুলি এমন কিছুর উপর নির্ভর করে যা বেশিরভাগ দল বুঝতে পারে না যে তারা নিয়ন্ত্রণ হস্তান্তর করেছে:তাদের শেষ পয়েন্টের পিছনে মডেলের আচরণ। বাস্তবতা হল একটি মডেল একটি নির্দিষ্ট শিল্পকর্ম নয়। এটি একটি চলমান লক্ষ্য। প্রতিযোগিতামূলক থাকার জন্য, প্ল্যাটফর্মগুলি ক্রমাগত ওজন আপডেট করে, কোয়ান্টাইজেশন লেভেল অদলবদল করে, ইনফারেন্স ইঞ্জিন আপগ্রেড করে, হার্ডওয়্যার জুড়ে ট্র্যাফিককে পুনরায় রুট করে এবং কখনও কখনও মডেলটিকে সম্পূর্ণভাবে প্রতিস্থাপন করে - শেষ পয়েন্টের নাম পরিবর্তন না করে।

যখন এটি ঘটবে, আপনার আবেদন এটির সাথে পরিবর্তিত হবে। আউটপুট স্থানান্তর. প্রম্পট কাজ বন্ধ. সাবধানে টিউন করা আচরণ অধঃপতন। এবং আপনি সাধারণত চেঞ্জলগ থেকে খুঁজে পান না:আপনি একজন ব্যবহারকারীর কাছ থেকে খুঁজে পান।

এটি আধুনিক AI পরিকাঠামোর লুকানো ঝুঁকি:আপনি এমন একটি সিস্টেমের উপরে তৈরি করছেন যা আপনার নীচে যে কোনও সময় পরিবর্তন করতে পারে, কোনও গ্যারান্টি ছাড়াই যে "একই মডেল" আগামীকাল একই মডেল যা আপনি আজ পরীক্ষা করেছেন৷ এই নিবন্ধটি অনুশীলনে এটির মতো দেখায়, কেন এটি ঘটে এবং কেন প্রায় কোনও প্ল্যাটফর্ম এটিকে ভালভাবে সমাধান করেনি - এবং দলগুলি এটি মোকাবেলায় কী করছে তা অনুসন্ধান করে৷

আপনি যে মডেলটি দিয়ে পাঠিয়েছেন সেটি আপনি চালাচ্ছেন এমন মডেল নয়৷

৷

প্রধান টেকওয়ে

"মডেল ভার্সনিং" ডিজাইনের দ্বারা অসম্পূর্ণ:যা দেখতে একটি একক মডেল আসলে চলন্ত অংশগুলির স্তুপ - ওজন, অনুমান ইঞ্জিন, হার্ডওয়্যার, রাউটিং এবং গার্ডেল - যার সবকটিই শেষবিন্দুর নাম পরিবর্তন না করে স্বাধীনভাবে পরিবর্তিত হতে পারে৷
নিঃশব্দ পরিবর্তনগুলি প্রকৃত উত্পাদন ঝুঁকি তৈরি করে:এই আপডেটগুলি পুনরুত্পাদনযোগ্যতাকে ভেঙে দেয়, প্রম্পট টিউনিংকে বাতিল করে এবং রিগ্রেশন চালু করে যা টিমগুলি প্রায়শই ব্যবহারকারীদের প্রভাবিত হওয়ার পরেই সনাক্ত করে - প্ল্যাটফর্ম দৃশ্যমানতা বা পর্যবেক্ষণের মাধ্যমে নয়৷
ব্যবধানটি প্রযুক্তিগত নয় - এটি স্বচ্ছতা এবং মালিকানা:প্ল্যাটফর্মগুলি ইতিমধ্যেই অভ্যন্তরীণভাবে এই পরিবর্তনগুলি ট্র্যাক করে কিন্তু সেগুলি প্রকাশ করে না; যেহেতু AI উৎপাদন-সমালোচনামূলক হয়ে উঠেছে, ফুল-স্ট্যাক সংস্করণ, চেঞ্জলগ এবং পুনরুত্পাদনযোগ্যতার গ্যারান্টিগুলি প্ল্যাটফর্ম নির্বাচনের মূল মানদণ্ড হয়ে উঠবে৷

সংস্করণ সমস্যার আকার

AI ইনফারেন্স পারফরম্যান্সকে প্রভাবিত করে অদেখা সংস্করণ সংক্রান্ত সমস্যা

"একই মডেল" আসলে কি মানে

একটি মডেল এন্ডপয়েন্ট একটি একক অপরিবর্তনীয় আর্টিফ্যাক্ট নয়। এটি এর একটি কনফিগারেশন:

অন্তর্নিহিত মডেলের ওজন (যা নিজেরাই কোয়ান্টাইজড, ছাঁটাই বা আসল থেকে পাতিত হতে পারে)
ইনফারেন্স ইঞ্জিন যেটি এগুলিকে চালায় (সেটি vLLM, TensorRT-LLM, SGLang, বা মালিকানাধীন ইঞ্জিনই হোক না কেন - প্রতিটি কিছুটা আলাদা আউটপুট তৈরি করে)
GPU জেনারেশন এবং মেমরি লেআউট
টোকেনাইজার সংস্করণ এবং যেকোনো প্রয়োগকৃত চ্যাট টেমপ্লেট
সিস্টেম প্রম্পট প্ল্যাটফর্মটি ইনজেক্ট করতে পারে যা আপনি কখনই দেখতে পাননি
মডেলের সামনে বসা নিরাপত্তা, পরিমিতকরণ, বা রেললাইন স্তর
রাউটিং লজিক যা সিদ্ধান্ত নেয় কোন প্রতিরূপ বা অঞ্চল আপনার অনুরোধ পরিচালনা করে

মডেলের নাম পরিবর্তন না করেই এগুলোর যেকোনো একটি পরিবর্তন হতে পারে। বাড়িতে আঘাত করার জন্য যা গুরুত্বপূর্ণ তা হল তাদের বেশিরভাগই একটি উত্পাদন অ্যাপ্লিকেশনের জীবনকাল জুড়ে নিয়মিতভাবে পরিবর্তন করে। এই পরিবর্তনটি AI পণ্যগুলির বিকাশের জন্য অপরিহার্য কারণ অন্তর্নিহিত প্রযুক্তি সাধারণত প্রতিটি পরিবর্তনের সাথে উন্নত হয়। এই ক্রমবর্ধমান পরিবর্তন AI সফটওয়্যার শিল্পের একটি মূল অংশ।

নিঃশব্দ পরিবর্তনের তিনটি বিভাগ

প্রথম বিভাগটি হল স্পষ্ট সংস্করণ আপডেট যেখানে প্ল্যাটফর্ম পরিবর্তন করে যার ওজন শেষ পয়েন্ট পয়েন্টে থাকে। "GPT-4" সময়ের সাথে একাধিক ভিন্ন মডেল হয়েছে, উদাহরণস্বরূপ, এবং Claude এন্ডপয়েন্টগুলি নিয়মিত আপডেট করা হয়। হোস্ট করা প্ল্যাটফর্মে ওপেন-সোর্স মডেল এন্ডপয়েন্ট প্রায়ই আপস্ট্রিম রিলিজ স্বয়ংক্রিয়ভাবে ট্র্যাক করে।

দ্বিতীয় বিভাগ হল অবকাঠামো-স্তরের পরিবর্তন যেখানে ওজন একই থাকে কিন্তু পরিবেশন স্ট্যাকের মধ্যে কিছু পরিবর্তন হয়। এর কিছু উদাহরণ অন্তর্ভুক্ত যখন:

অনুমান ইঞ্জিন আপগ্রেড হয়
খরচের কারণে পরিমাপের মাত্রা পরিবর্তিত হয়
রাউটিং সিদ্ধান্তগুলি বিভিন্ন স্থাপনার মধ্যে ট্রাফিক পরিবর্তন করে যা সমতুল্য হওয়ার কথা ছিল কিন্তু হয় না৷

তৃতীয় বিভাগ হল প্ল্যাটফর্ম-স্তরের সংযোজন থেকে আচরণগত পরিবর্তনগুলি:নতুন সংযম স্তর, পরিবর্তিত সিস্টেম প্রম্পট, যোগ করা নিরাপত্তা ফিল্টার, বা পরিবর্তিত চ্যাট টেমপ্লেট। এই পরিস্থিতিতে, মডেল একই, কিন্তু মডেল যা গ্রহণ করে এবং ব্যবহারকারী যা গ্রহণ করে তা ভিন্ন।

প্রত্যেকটি শ্রেণী প্রকৃতপক্ষে মডেল আচরণকে কীভাবে প্রভাবিত করে

নিঃশব্দ রিগ্রেশন সমস্যা

নীরব রিগ্রেশন হল মডেল আউটপুট মানের অবনতি যা সার্ভিং স্ট্যাকের কোথাও পরিবর্তনের কারণে ঘটে যা কখনই ঘোষণা করা হয়নি, কখনও নথিভুক্ত করা হয়নি এবং কখনও সংস্করণ বাম্পের সাথে বাঁধা হয়নি। শেষ পয়েন্টে মডেলের নাম একই। API চুক্তি একই। আপনি যে অনুরোধটি পাঠান তা গত মাসে যেটি পাঠিয়েছেন তার সাথে বাইট-অনুরূপ। কিন্তু প্রতিক্রিয়ার মান কমে গেছে - কখনও সূক্ষ্মভাবে, কখনও তীব্রভাবে - এবং প্ল্যাটফর্মের সর্বজনীন পৃষ্ঠের কিছুই আপনাকে বলে না কেন।

প্রক্রিয়াটি প্রায় সবসময়ই আগের থেকে তিনটি পরিবর্তনের বিভাগগুলির মধ্যে একটি:ওজনগুলি শান্তভাবে আপডেট করা হয়েছিল, পরিকাঠামোতে কিছু স্থানান্তরিত হয়েছে, বা একটি প্ল্যাটফর্ম-লেভেল স্তর (একটি নতুন রেললাইন, একটি সংশোধিত সিস্টেম প্রম্পট, একটি আঁট করা সংযম ফিল্টার) যোগ করা হয়েছে বা পরিবর্তিত হয়েছে৷ বাইরে থেকে, তিনটিই একই রকম দেখাচ্ছে - আপনার আউটপুট খারাপ হয়ে গেছে এবং প্ল্যাটফর্ম আপনাকে জানায়নি। ভিতর থেকে, এগুলি বিভিন্ন সমাধান সহ বিভিন্ন মূল কারণ, এবং প্ল্যাটফর্মের সহযোগিতা ছাড়া তাদের আলাদা করার কোনো উপায় নেই৷

নীরব রিগ্রেশনকে সাধারণ মডেল ড্রিফট থেকে আলাদা করে তোলে তথ্যের অসাম্য। প্ল্যাটফর্ম জানে কী পরিবর্তন হয়েছে। আপনি না. এবং যেহেতু আপনার মনিটরিং প্রায় নিশ্চিতভাবেই একটি সোনালী ডেটাসেটে আউটপুট মানের পরিবর্তে আপটাইম, লেটেন্সি এবং ত্রুটির হার পরিমাপ করছে, তাই আপনার মালিকানাধীন কোনো ড্যাশবোর্ডে প্রদর্শিত হওয়ার আগে রিগ্রেশন আপনার ব্যবহারকারীদের কাছে প্রচার করে। আপনি যখন নিশ্চিত করেছেন যে রিগ্রেশনটি বাস্তব, এটিকে আপনার নিজের কোডের পরিবর্তে মডেলে বিচ্ছিন্ন করুন এবং একটি সমর্থন টিকিট খুলেছেন, প্ল্যাটফর্মটি সাধারণত ইতিমধ্যে পরবর্তী নীরব পরিবর্তনে চলে গেছে। আপনি অর্ধেক তথ্য দিয়ে একটি চলমান টার্গেট ডিবাগ করে শেষ করেন, যখন আপনার ব্যবহারকারীরা এমন একটি সিদ্ধান্তের মূল্য শোষণ করে যা আপনাকে কখনো বলা হয়নি।

এই বিভাগের চারটি সমস্যার মধ্যে এটিই সবচেয়ে খারাপ কারণ এটিই একমাত্র যেখানে প্ল্যাটফর্মে এমন তথ্য রয়েছে যা তাৎক্ষণিকভাবে সমস্যাটির সমাধান করবে এবং এটি শেয়ার না করা বেছে নেবে। প্রজননযোগ্যতা ব্যর্থতা, প্রম্পট ডেট এবং ইভাল-টু-প্রোড ড্রিফ্ট এই সমস্ত উপসর্গ দলগুলি অন্তত নিজেরাই নির্ণয় করতে পারে। নীরব রিগ্রেশন হল এমন একটি যেখানে আপনার প্রয়োজনীয় ডায়াগনস্টিক টুলটি API এর অন্য দিকে থাকে৷

প্রজনন সমস্যা

যদিও GPT মডেলগুলি, একটি জনপ্রিয় AI স্থাপনার প্রকারের একটি চমৎকার উদাহরণ হিসাবে, প্রকৃতিগতভাবে সম্ভাব্য, আপনি এখনও একই প্রম্পটের সাথে একই মডেল ব্যবহার করার সময় একই উত্তর পাওয়ার আশা করতে পারেন। কিন্তু, পূর্বে বর্ণিত কোনো পরিবর্তন ঘটলে, আপনি গতকাল পেয়েছিলেন এমন একটি আউটপুট আজ পুনরুত্পাদনযোগ্য নাও হতে পারে। এটি হল প্রজননযোগ্যতা সমস্যার মূল বিষয়:একটি মডেল কীভাবে আচরণ করবে তার যেকোনো প্রত্যাশা এই পরিবর্তনগুলির যেকোনো একটি দ্বারা বাতিল করা যেতে পারে।

স্বয়ংক্রিয় মূল্যায়ন বা একে অপরের সাথে মডেল সংস্করণের তুলনা করা অ্যাপ্লিকেশনগুলির জন্য, এটি এই মৌলিক অনুমানকে ভেঙে দেয় যে অভিন্ন ইনপুটগুলি একই বীজ প্রদত্ত অভিন্ন (বা অনুরূপ, সম্ভাব্য মডেলের ক্ষেত্রে) আউটপুট তৈরি করে। যখন অন্তর্নিহিত স্ট্যাক আপনার অধীনে স্থানান্তরিত হয় তখন তাপমাত্রা শূন্য আসলে আপনাকে নির্ধারকতা দেয় না। প্রম্পট ইঞ্জিনিয়ারিং ঋণ সমস্যা

দলগুলি প্রায়শই একটি নির্দিষ্ট মডেলের কুইর্কগুলির জন্য প্রম্পট টিউন করতে এবং তাদের ব্যবহারকারীদের চাহিদাগুলি আরও ভালভাবে মেটাতে সেগুলিকে অপ্টিমাইজ করার জন্য এক সময়ে সপ্তাহ ব্যয় করে। যখন সেই মডেলটি নীরবে অদলবদল বা আপডেট করা হয়, তখন সমস্ত টিউনিং কাজ আংশিক ঋণে পরিণত হয়। যখন একটি মডেলের ব্যর্থতা মোড পরিচালনা করার জন্য সতর্কতার সাথে তৈরি করা প্রম্পটগুলি এখন সামান্য ভিন্ন ব্যর্থতার মোড সহ একটি সামান্য ভিন্ন মডেলের মুখোমুখি হয়, তখন আপনার ব্যবহারকারীরা পরিবর্তনের সাথে দেখা শেষ আচরণ।

ইভাল থেকে প্রোডাকশন ড্রিফট সমস্যা

এখানে আরেকটি সাধারণ পরিস্থিতি রয়েছে:আপনি আপনার পরীক্ষার সেটের বিপরীতে একটি মডেল সংস্করণ মূল্যায়ন করেন এবং পরবর্তীতে এটি উৎপাদনে পাঠান। কিন্তু প্রোডাকশন এন্ডপয়েন্ট আর আপনার মূল্যায়ন করা মডেলটি ব্যবহার করছে না, এমনকি যদি এন্ডপয়েন্টের নাম একই থাকে। আবারও, এটি চূড়ান্ত পণ্যের আচরণের উপর একটি উল্লেখযোগ্য প্রভাব ফেলতে পারে।

প্ল্যাটফর্ম আসলে কি করে

পাবলিক ডকুমেন্টেশন এবং পর্যবেক্ষণযোগ্য আচরণের উপর ভিত্তি করে, প্রধান অনুমান প্ল্যাটফর্মগুলি কীভাবে সংস্করণ পরিচালনা করে তা এই বিভাগে চলে।

ওপেনএআই-স্টাইল সংস্করণ

OpenAI স্ন্যাপশটগুলি স্পষ্টভাবে পিন করে (gpt-4-0613, gpt-4o-2024-08-06) এবং আপনাকে সেগুলি লক্ষ্য করতে দেয়। বর্তমান ডিফল্ট যাই হোক না কেন উপনামযুক্ত শেষ পয়েন্ট (gpt-4, gpt-4o) পয়েন্ট, যা সময়ের সাথে পরিবর্তিত হয়। যে দলগুলি স্ন্যাপশটগুলি পিন করতে জানে না তারা বর্তমান সংস্করণটি পায় এবং উপনাম তাদের অধীনে স্থানান্তরিত হতে পারে৷

OpenAI যদিও বিভিন্ন কারণে তাদের মডেল পরিবর্তন করে। এর একটি উদাহরণ হল সাইকোফ্যান্সি ঘটনা। GPT-4o কথিত ছিল 'অতিরিক্ত চাটুকার বা সম্মত — প্রায়শই সাইকোফ্যান্টিক হিসাবে বর্ণনা করা হয়েছিল, এবং ওপেনএআই শেষ পর্যন্ত মডেল (উৎস) অবমূল্যায়ন করার আগে একটি ধারাবাহিক রোলআউট সংশোধন জারি করেছে। মডেলটির চূড়ান্ত অবচয় আরও তরঙ্গ তৈরি করেছিল কারণ লোকেরা মডেলটির ক্ষতির জন্য শোক প্রকাশ করেছিল৷

সাইকোফ্যান্সি ঘটনাকে যা শিক্ষণীয় করে তোলে তা ব্যক্তিত্বের পরিবর্তন নয় - এটি শেষ পয়েন্ট চুক্তি সম্পর্কে এটি প্রকাশ করে। সাইকোফ্যান্সি রোলআউটের আগে, চলাকালীন এবং পরে gpt-4o কল করা দলগুলি একই শেষ পয়েন্টের নাম কিন্তু অর্থপূর্ণভাবে ভিন্ন মডেলে আঘাত করছিল। প্রাক-সাইকোফ্যান্সি সংস্করণের বিপরীতে টিউন করা একটি গ্রাহক সহায়তা বট তার উত্পাদন জীবনের অংশে একটি উষ্ণ, আরও সম্মত মডেলের মুখোমুখি হবে, তারপর OpenAI কোর্স সংশোধন করার সময় একটি তৃতীয় আচরণ প্রোফাইলের সম্মুখীন হবে, এবং চতুর্থটি যখন মডেলটিকে শেষ পর্যন্ত অবমূল্যায়িত করা হয়েছিল। এই ট্রানজিশনগুলির কোনওটিরই গ্রাহকের শেষে কোড পরিবর্তনের প্রয়োজন ছিল না। তাদের কেউই এন্ডপয়েন্ট স্ট্রিং-এ একটি সংস্করণ বাম্প ট্রিগার করেনি। একই দুই-লাইন API কল মাসের মধ্যে চারটি স্বতন্ত্র আচরণগত শাসন তৈরি করেছে, এবং বেশিরভাগ দলই একমাত্র সংকেত পেয়েছে যেটি তাদের ব্যবহারকারীদের বলে যে পণ্যটি আলাদা অনুভূত হয়েছে। OpenAI এর পদ্ধতিটি বেশিরভাগের চেয়ে ভাল কারণ এটি আপনাকে পুরানো মডেল সংস্করণগুলি ব্যবহার করার বিকল্প দেয়, যতক্ষণ পর্যন্ত OpenAI এখনও সেগুলি পরিবেশন করছে। কিন্তু, এটি এখনও লক্ষণীয় যে নির্বাচনটি ম্যানুয়াল এবং যারা মডেলটিকে পুরানো সংস্করণে কীভাবে পরিবর্তন করতে হয় তা জানার জন্য যারা গবেষণা করেন না তাদের জন্য এটি করা কঠিন হবে৷

Anthropic's পদ্ধতি

নৃতাত্ত্বিক তারিখের মডেল শনাক্তকারী ব্যবহার করে (claude-opus-4-5-20251101 শৈলী)। পিনিং কাজ করে। কিন্তু প্ল্যাটফর্ম-লেভেল সিস্টেম প্রম্পট ইনজেকশন এবং নিরাপত্তা স্তর মডেল সংস্করণ থেকে স্বাধীনভাবে বিকশিত হয়, তাই বিভিন্ন দিনে একই পিন করা মডেলের দুটি অনুরোধ ভিন্নভাবে আচরণ করতে পারে কারণ মডেলের চারপাশে যা ঘটছে, এতে নয়। এটি স্বচ্ছতার ক্ষেত্রে এক ধাপ দূরে, কিন্তু মূল মডেল নির্বাচন ওপেনএআই-এর মতোই রয়েছে।

অ্যানথ্রোপিক থেকে নীরব রিগ্রেশনের একটি উদাহরণ সম্প্রতি একটি উল্লেখযোগ্য গিথুব ইস্যুতে ঘটেছে, যেখানে একজন প্রধান এআই বিকাশকারী তাদের জটিল ইঞ্জিনিয়ারিং কাজে ক্লদ ওপাস মডেলগুলির আপাত "নারফিং" বলেছে। তারা রিপোর্ট করেছে যে ক্লড নির্দেশাবলী উপেক্ষা করা শুরু করেছে, দাবি করেছে যে "সরলতম সংশোধনগুলি" যা ভুল, অনুরোধ করা ক্রিয়াকলাপের বিপরীত করছে, এবং তারা দাবি করেছে যে মডেলটি নির্দেশের বিপরীতে সম্পন্ন করেছে। মডেল ব্যবহার করা হচ্ছে একটি রিপোর্ট পরিবর্তন ছাড়া এই সব. এই নীরব পরিবর্তনটি একই থ্রেডে ক্লাউডের ডেভেলপারদের দ্বারা প্রত্যাখ্যান করা হয়েছিল, কিন্তু মন্তব্যের প্রতিক্রিয়ার উপর ভিত্তি করে অন্য ব্যবহারকারীদের কাছ থেকে একটি পরিবর্তন ঘটেছে বলে বিস্তৃত চুক্তি রয়েছে৷

'একই মডেল' সর্বদা একটি বিপণন বিমূর্ততা।

হোস্ট করা ওপেন সোর্স মডেলগুলি

ওপেন-সোর্স মডেলগুলি হোস্ট করা প্ল্যাটফর্মগুলি (বেসেটেন, ফায়ারওয়ার্কস, টুগেদার, ডিজিটাল ওশান, নেবিয়াস টোকেন ফ্যাক্টরি, মডেল) প্রায়শই অন্তর্নিহিত মডেলের পরে শেষ পয়েন্টের নাম দেয়, যেমন "llama-3.1-70b-instruct", কোন নির্দিষ্ট পরিমাপ, কোন অনুমান ইঞ্জিন সংস্করণ, বা কোন স্থাপনার অনুরোধটি আসলে কনফিগার করছে তা প্রকাশ না করে। এটি একটি বড় সমস্যা হতে পারে, কারণ মডেলটির কর্মক্ষমতা প্ল্যাটফর্ম থেকে প্ল্যাটফর্মে পরিবর্তিত হবে যখন তারা একই নাম ধরে রাখে। মডেল সংস্করণ পরিবর্তন হিসাবে তাদের কোনো আপডেট সাধারণত যোগাযোগ করা হয় না. ওপেন-সোর্স হোস্টিং প্রদানকারীদের ক্ষেত্রে, সার্ভারলেস ইনফারেন্স পরিস্থিতিতে অন্তর্নিহিত মডেল স্থাপনার কোনো পরিবর্তন সম্পর্কে গবেষণা করার দায়িত্ব ব্যবহারকারীর উপর বর্তায়। কাস্টম স্থাপনায়, জিনিসগুলি কিছুটা আলাদা।

কাস্টম স্থাপনা

আপনি যখন Modal বা Baseten-এর মতো একটি প্ল্যাটফর্মে আপনার নিজস্ব মডেল স্থাপন করেন, তখন আপনি সংস্করণের গল্পের মালিক হন। এটি হল প্রজননযোগ্যতা, উৎপাদনের উপর নিয়ন্ত্রণ, এবং আপনার ডাউনস্ট্রিম পণ্যগুলির জন্য মডেল পরিবর্তনগুলি পরিচালনা করার জন্য সবচেয়ে পরিষ্কার পরিস্থিতি, তবে এর অর্থ হল মডেল জীবনচক্র পরিচালনা করার কার্যক্ষম বোঝা নিজের হাতে নেওয়া। স্কেলিং করার সময় এই ট্রেডঅফটি বিবেচনা করা গুরুত্বপূর্ণ, কারণ পরিবর্তনগুলিকে পরিচালনা করার জন্য বিকাশকারীর সময় প্রয়োজন।

দলগুলি এটি সম্পর্কে কী করছে

নীচের বিভাগগুলি কভার করে সাধারণ ওয়ার্কঅ্যারাউন্ড দলগুলি গ্রহণ করেছে৷ এগুলির মধ্যে কেউই সম্পূর্ণরূপে সমস্যার সমাধান করে না, তবে তারা প্রত্যেকে সঠিক পথে পদক্ষেপের প্রস্তাব দেয়৷ সম্ভব হলে স্ন্যাপশট পিন করা হয়

যখন প্ল্যাটফর্ম তারিখের স্ন্যাপশটগুলি প্রকাশ করে, তখন সেগুলিকে পিন করা হল টেবিল স্টেক৷ কিন্তু প্রতিটি প্ল্যাটফর্ম তাদের প্রকাশ করে না, এবং পিন করা স্ন্যাপশটগুলি শেষ পর্যন্ত অবমূল্যায়িত হয়ে যায়। আপনার AI পণ্যগুলির জন্য আপনার মডেল হোস্ট করার জন্য কোন প্ল্যাটফর্মটি সাবধানে নির্বাচন করার সময় এটি বিবেচনা করুন, অথবা আপনি এমন পরিস্থিতিতে শেষ হতে পারেন যেখানে আপনার মডেলটি ব্যাক আপ প্ল্যান ছাড়াই চলে গেছে৷

গোল্ডেন ডেটাসেট রিগ্রেশন টেস্টিং

গোল্ডেন ডেটাসেট রিগ্রেশন টেস্টিং হল যেখানে আপনি একটি নির্দিষ্ট সময়সূচীতে প্রোডাকশন এন্ডপয়েন্টের মাধ্যমে ইনপুটগুলির একটি নির্দিষ্ট সেট চালান এবং একটি পরিচিত-ভাল বেসলাইনের বিপরীতে আউটপুটগুলিকে আলাদা করেন৷ এই প্রক্রিয়াটি আপনাকে সহজেই মানসম্পন্ন রিগ্রেশন এবং অন্যান্য উল্লেখযোগ্য মডেল আচরণের পরিবর্তনগুলি ধরতে দেয়, তবে এটি বজায় রাখা ব্যয়বহুল, এবং আপনি যে নিদর্শনগুলি পর্যবেক্ষণ করার কথা ভেবেছিলেন তা কেবল কভার করতে পারে। নিয়মিত গোল্ডেন ডেটাসেট রিগ্রেশন টেস্টিং এমন ভয়ঙ্কর খবর প্রতিরোধ করতে পারে যে আপনার আগে আপনার পণ্যের আচরণের পরিবর্তন একজন গ্রাহক আবিষ্কার করেছেন।

আউটপুট স্যাম্পলিং এবং লগিং

এটি পরবর্তী বিশ্লেষণের জন্য উত্পাদন অনুরোধ এবং প্রতিক্রিয়াগুলির নমুনাকৃত শতাংশ লগ করার প্রক্রিয়া। এটি আপনাকে সত্যের পরে ড্রিফ্ট সনাক্ত করতে দেয়, তবে এখনও স্যাম্পলিং, স্টোরেজ এবং বিশ্লেষণের পরিকাঠামো তৈরি করতে হবে।

শ্যাডো স্থাপনা

আপনি একই সাথে বর্তমান প্রোডাকশন এন্ডপয়েন্ট এবং একজন প্রার্থীর নতুন এন্ডপয়েন্টের বিরুদ্ধে একই অনুরোধ চালাতে পারেন এবং মডেল আচরণকে কীভাবে প্রভাবিত করে তা দেখতে আউটপুটগুলির তুলনা করতে পারেন। আপনি যে পরিবর্তনগুলি করছেন তা মূল্যায়নের জন্য এটি চমৎকারভাবে কাজ করে; এটি আপনার অধীনে প্ল্যাটফর্মের পরিবর্তনে সাহায্য করে না।

মডেলটি স্ব-হোস্টিং

চূড়ান্ত নিয়ন্ত্রণের পদক্ষেপ:আপনার নিয়ন্ত্রণ করা পরিকাঠামোতে মডেলটি নিজেই চালান। এটি আপনাকে আপনার ব্যবহার করা ওজন, ইনফারেন্স ইঞ্জিন, কোয়ান্টাইজেশন এবং আউটপুটকে প্রভাবিত করতে পারে এমন অন্য কিছুর উপর সম্পূর্ণ নিয়ন্ত্রণ রাখতে দেয়। এটি মডেল হোস্টিং এর অপারেশনাল বোঝার জন্য সংস্করণ সমস্যাকে ট্রেড করে, যে কারণে বেশিরভাগ দল এটি করে না।

ভার্শনিং আসলে কি খরচ হয়

পর্যবেক্ষণযোগ্যতা কর

প্রতিটি দল যারা আউটপুট মানের বিষয়ে যত্নশীল তারা তাদের নিজস্ব মূল্যায়ন পরিকাঠামো তৈরি করছে কারণ প্ল্যাটফর্মগুলি এটি প্রদান করে না। এটি সমগ্র শিল্প জুড়ে ঘটছে সদৃশ কাজ - প্রম্পট রিগ্রেশন ফ্রেমওয়ার্ক, আউটপুট ডিফিং টুলস, কোয়ালিটি মনিটরিং সিস্টেম, ইত্যাদি, সমস্ত অ্যাপ্লিকেশন টিম দ্বারা তৈরি করা হচ্ছে যারা বরং তাদের প্রকৃত পণ্য তৈরি করতে চায়৷ বিশ্বাস কর

যখন আপনার এআই বৈশিষ্ট্যটি ভেঙে যায় কারণ মডেলটি আপনার অধীনে স্থানান্তরিত হয়েছে, ব্যবহারকারীরা "এআই অবিশ্বস্ত" এবং "প্ল্যাটফর্মটি নীরবে মডেল আপডেট করেছে" এর মধ্যে পার্থক্য জানেন না। আপনার পণ্য আপস্ট্রিম করা সিদ্ধান্তের সম্মানজনক খরচ শোষণ করে।

মাইগ্রেশন ট্যাক্স

প্ল্যাটফর্ম স্যুইচিং বিবেচনা করা দলগুলিকে শুধুমাত্র API পার্থক্য নয় বরং বিভিন্ন প্ল্যাটফর্মে একই নামের মডেলগুলির মধ্যে আচরণগত পার্থক্যের জন্য অ্যাকাউন্ট করতে হবে। ফায়ারওয়ার্কসে "Llama 3.1 70B" অগত্যা একসাথে "Llama 3.1 70B"-এর মতো নয় - সেগুলি আলাদা কোয়ান্টাইজেশন হতে পারে, একটি ভিন্ন ইনফারেন্স ইঞ্জিন ব্যবহার করতে পারে, বা সম্পূর্ণ আলাদা গার্ডেল স্ট্যাক থাকতে পারে৷ এই স্বচ্ছতার অভাব বিস্তৃত পরীক্ষা ছাড়াই প্রদানকারীদের মধ্যে পরিবর্তন করা কঠিন করে তোলে।

কি ভালো লাগবে

2026 সালে একটি গুরুতর অনুমান প্ল্যাটফর্মের মডেল আচরণের আচরণ করা উচিত যেভাবে ক্লাউড প্রদানকারীরা আপটাইম ব্যবহার করে:একটি চুক্তিভিত্তিক পৃষ্ঠ হিসাবে, একটি ব্ল্যাক বক্স নয়।

বর্তমান অবস্থা কোনো প্রযুক্তিগত সীমাবদ্ধতা নয় - এটি একটি প্রকাশের ফাঁক। ওজন, ইঞ্জিন, কোয়ান্টাইজেশন লেভেল এবং রাউটিং সিদ্ধান্ত ট্র্যাক করার জন্য অবকাঠামো ইতিমধ্যেই বিদ্যমান; প্ল্যাটফর্মগুলি কেবল এটি প্রকাশ করে না৷

৷

অনুশীলনে এটি দেখতে কেমন তা এখানে।

সম্পূর্ণ সংস্করণ শনাক্তকারীআজকের মডেলের নাম কখনও কখনও ওজন চিহ্নিত করে। তাদের সম্পূর্ণ পরিবেশন কনফিগারেশন সনাক্ত করা উচিত। একটি সম্পূর্ণ সংস্করণ স্ট্রিং সমস্ত কিছুকে ক্যাপচার করে যা এন্ডপয়েন্ট থেকে যা আসে তা পরিবর্তন করতে পারে:ওজন (কোয়ান্টাইজেশন লেভেল সহ), ইনফারেন্স ইঞ্জিন এবং ভার্সন, হার্ডওয়্যার জেনারেশন, টোকেনাইজার ভার্সন, চ্যাট টেমপ্লেট এবং যেকোন প্ল্যাটফর্ম-ইনজেকশন করা সিস্টেম প্রম্পট বা রেললাইন লেয়ার। llama-3.1-70b-instruct.fp8.vllm-0.6.3.h100.tmpl-v2.guardrail-v4 এর মতো কিছু কুৎসিত কিন্তু সৎ৷ দলগুলি যে কোনও উপাদানের উপর নির্ভর করে পিন করতে পারে এবং অন্যরা পরিবর্তন হলে বিজ্ঞপ্তিগুলি পেতে পারে৷
৷
পুরো স্ট্যাকপ্ল্যাটফর্মের জন্য চেঞ্জলগ ফিডগুলি যখন মডেলের ওজন আপডেট করে তখন রিলিজ নোট প্রকাশ করে। যখন তারা vLLM আপগ্রেড করে, খরচের কারণে পরিমাপ পরিবর্তন করে, বা অঞ্চলগুলির মধ্যে ট্র্যাফিককে পুনরায় রুট করে তখন তারা খুব কমই কিছু প্রকাশ করে। একটি সঠিক চেঞ্জলগ ফিড - আদর্শভাবে মেশিন-পাঠযোগ্য - টাইমস্ট্যাম্প এবং প্রভাবিত এন্ডপয়েন্ট সহ পরিবেশন স্ট্যাকের প্রতিটি স্তরকে কভার করবে। টিমগুলি একটি নির্দিষ্ট পিন করা কনফিগারেশনের জন্য পরিবর্তনগুলিতে সদস্যতা নিতে সক্ষম হওয়া উচিত এবং রোলআউটের আগে সতর্কতা গ্রহণ করতে হবে, ব্যবহারকারীর অভিযোগের পরে নয়৷
উল্লিখিত ধরে রাখার সাথে পুনরুত্পাদনযোগ্যতার গ্যারান্টি একটি পিন করা স্ন্যাপশটের কিছু অর্থ হওয়া উচিত। প্ল্যাটফর্মগুলিকে একটি উল্লিখিত ধারণ উইন্ডোতে প্রতিশ্রুতিবদ্ধ করা উচিত - বলুন, 12 বা 24 মাস - যে সময়ে একটি পিন করা কনফিগারেশন শূন্য তাপমাত্রায় অভিন্ন ইনপুটগুলির জন্য বাইট-অভিন্ন আউটপুট প্রদান করবে, সম্পূর্ণ স্ট্যাকের জন্য, শুধু ওজন নয়। যখন সেই উইন্ডোটির মেয়াদ শেষ হয়ে যায়, দলগুলি অগ্রিম বিজ্ঞপ্তি এবং একটি মাইগ্রেশন পথ পায়৷ এইভাবে ডাটাবেস এবং অপারেটিং সিস্টেমগুলি সংস্করণ পরিচালনা করে। অনুমান ভিন্ন হওয়া উচিত কোন কারণ নেই।
প্ল্যাটফর্ম-প্রদত্ত রিগ্রেশন টেস্টিং প্রতিটি গুরুতর দল বিচ্ছিন্নভাবে একই মূল্যায়ন পরিকাঠামো তৈরি করছে। প্ল্যাটফর্মগুলিকে এটি একটি প্রথম-শ্রেণীর বৈশিষ্ট্য হিসাবে প্রদান করা উচিত:একটি সোনালী ডেটাসেট নিবন্ধন করুন, এটিকে আপনার পিন করা শেষ পয়েন্টের বিপরীতে একটি সময়সূচীতে চালান এবং যখন আউটপুটগুলি আপনার সেট করা থ্রেশহোল্ডের বাইরে চলে যায় তখন সতর্ক হন৷ স্ন্যাপশটগুলির মধ্যে ডিফারেনশিয়াল পরীক্ষার জন্য বোনাস পয়েন্ট, যাতে দলগুলি তাদের বাধ্য করার আগে স্থানান্তর করতে হবে কিনা তা মূল্যায়ন করতে পারে৷
এই তালিকার সবচেয়ে কঠিন আইটেম কী পরিবর্তন এবং কখন সে সম্পর্কে সৎ ডকুমেন্টেশন, কারণ এটির জন্য প্ল্যাটফর্মগুলিকে স্বীকার করতে হবে যে "একই মডেল" সর্বদা একটি বিপণন বিমূর্ততা। ডকুমেন্টেশনে প্রতিটি স্তরের নাম দেওয়া উচিত যা মডেল সংস্করণ থেকে স্বাধীনভাবে পরিবর্তিত হতে পারে, প্রতিটি পরিবর্তনের বিষয়ে প্ল্যাটফর্মের নীতি বর্ণনা করে এবং গ্রাহকদের কীভাবে অবহিত করা হবে তা বর্ণনা করা উচিত। টিমগুলি তারপর কোন প্ল্যাটফর্মগুলি তাদের ঝুঁকি সহনশীলতার সাথে মেলে সে সম্পর্কে অবগত সিদ্ধান্ত নিতে পারে৷

একজন ক্রেতার চেকলিস্ট

আপনি যদি আজ একটি অনুমান প্ল্যাটফর্মের মূল্যায়ন করছেন, তাহলে স্বাক্ষর করার আগে বিক্রেতাকে এই প্রশ্নগুলি জিজ্ঞাসা করুন:

"আমি কি একটি নির্দিষ্ট মডেলের স্ন্যাপশট পিন করতে পারি এবং সেই স্ন্যাপশটটি কতক্ষণের জন্য উপলব্ধ গ্যারান্টিযুক্ত?"
“আমি যে ভার্সন স্ট্রিংটি পিন করি সেটি কি ইনফারেন্স ইঞ্জিন, কোয়ান্টাইজেশন এবং হার্ডওয়্যারকে কভার করে - নাকি শুধুমাত্র ওজনগুলিকে কভার করে?”
“যখন সার্ভিং স্ট্যাকের কোনো স্তর পরিবর্তিত হয় তখন আপনার বিজ্ঞপ্তি নীতি কী?”
"আপনি কি সিস্টেম প্রম্পট, গার্ডেল, বা মডারেশন লেয়ারগুলিকে ইনজেক্ট করেন যা আমি দেখতে পাচ্ছি না? আমি কি অপ্ট আউট করতে পারি?"
“যদি আমি একই অনুরোধ প্রতি মাসে শূন্য তাপমাত্রায় দুবার চালাই, তাহলে আউটপুট পরিচয় সম্পর্কে আপনি কী গ্যারান্টি দেবেন?”
"আপনি কি রিগ্রেশন টেস্টিং টুলিং প্রদান করেন, নাকি আমি নিজেই এটি তৈরি করি?"
"যখন একটি পিন করা স্ন্যাপশট অবহেলিত হয়, তখন আমি কতটা বিজ্ঞপ্তি পাব এবং মাইগ্রেশনের পথ কী?"

যদি একটি প্ল্যাটফর্ম স্পষ্টভাবে এর বেশিরভাগের উত্তর দিতে না পারে, তবে এটিই উত্তর। আপনি এমন পরিকাঠামো তৈরি করছেন যা আপনার নীচে পরিবর্তিত হতে পারে এবং আপনিই আপনার ব্যবহারকারীদের কাছে এটি ব্যাখ্যা করবেন।

বাণিজ্যিক বাস্তবতা

উপরের কোনটিই প্রযুক্তিগতভাবে কঠিন নয়। যা এটিকে কঠিন করে তোলে তা হল বাণিজ্যিক:প্ল্যাটফর্মগুলি শান্তভাবে জিনিসগুলি পরিবর্তন করার নমনীয়তা থেকে উপকৃত হয় এবং গ্রাহকরা ঐতিহাসিকভাবে এটি গ্রহণ করেছেন কারণ বিকল্প, স্ব-হোস্টিং, কার্যকরীভাবে ব্যয়বহুল। AI বৈশিষ্ট্যগুলি ডেমো থেকে লোকেরা নির্ভরশীল পণ্যগুলিতে চলে যাওয়ায় সেই বাণিজ্যটি আরও খারাপ দেখাতে শুরু করেছে। যে প্ল্যাটফর্মগুলি প্রথমে এটি সমাধান করবে তারা বাজারের সেগমেন্ট জয় করবে যা প্রকৃতপক্ষে নির্ভরযোগ্যতার বিষয়ে যত্নশীল। যারা তাদের ব্যবহারকারীদের কাছ থেকে খুঁজে বের করে এমন দলকে নীরব রিগ্রেশন পাঠাতে থাকবে।

ক্লোজিং থটস

শিল্পটি ঐতিহ্যবাহী সফ্টওয়্যার থেকে ধার করা একটি অনুমানের ভিত্তিতে এআই অবকাঠামো তৈরি করেছে:যে একটি নামযুক্ত শিল্পকর্ম একটি স্থিতিশীল শিল্পকর্ম। সেই অনুমান ধরে না। ওজন, ইঞ্জিন, রাউটিং, এবং গার্ডেল সবই শেষবিন্দুতে নাম থেকে স্বাধীনভাবে পরিবর্তিত হয় এবং "মডেল সংস্করণ" যা বোঝায় এবং এটি আসলে কী গ্যারান্টি দেয় তার মধ্যে ব্যবধান যেখানে উত্পাদন AI শান্তভাবে ভেঙে যায়৷

এই হল ভবিষ্যদ্বাণী:আগামী 18 মাসের মধ্যে, নীরব সংস্করণ একটি প্রকিউরমেন্ট সমস্যা হয়ে উঠবে, শুধু একটি ইঞ্জিনিয়ারিং নয়। অনুমান ক্ষমতা ক্রয়কারী দলগুলি উপরের চেকলিস্টে প্রশ্নগুলি জিজ্ঞাসা করতে শুরু করেছে এবং যে প্ল্যাটফর্মগুলি তাদের উত্তর দিতে পারে তারা ডিল জিততে শুরু করবে অন্যরা এমনকি জানে না যে তারা হেরেছে। "পুনরুত্পাদনযোগ্যতা SLAs", "স্ট্যাক-লেভেল চেঞ্জলগ" এবং "স্ন্যাপশট রিটেনশন উইন্ডোজ" ইঞ্জিনিয়ারিং উইশলিস্ট থেকে এন্টারপ্রাইজ চুক্তিতে সরানো দেখার প্রত্যাশা করুন৷ একটি পণ্য বৈশিষ্ট্য হিসাবে একটি সম্পূর্ণ-স্ট্যাক সংস্করণ স্ট্রিং প্রকাশ করার প্রথম প্ল্যাটফর্ম - একটি গভীর-ইন-দ-ডক্স পাদটীকা নয় - অন্য সকলের জন্য গ্রাহকের প্রত্যাশা পুনরায় সেট করবে৷

আজকের অনুমানের শীর্ষে তৈরি দলগুলির জন্য, ব্যবহারিক প্রশ্নটি নীরব পরিবর্তন আপনার পণ্যকে প্রভাবিত করবে কিনা তা নয়। এটা হবে. প্রশ্ন হল আপনি আপনার মনিটরিং থেকে, আপনার নিজের রিগ্রেশন পরীক্ষা থেকে বা সোমবার সকালে ব্যবহারকারীর অভিযোগ থেকে জানতে পারেন কিনা। এই তিনটির মধ্যে কোনটি এটি প্রায় সম্পূর্ণভাবে নির্ভর করে আপনি এখন যে সিদ্ধান্তগুলি নিয়েছেন তার উপর, পরবর্তী নীরব আপডেট আসার আগে৷

আপনি যে মডেলটি দিয়ে পাঠিয়েছেন সেটি আপনি চালাচ্ছেন এমন মডেল নয়। সেই অনুযায়ী তৈরি করুন।

DigitalOcean আপনাকে সাহায্য করতে পারে আপনার AI পণ্যগুলিকে স্কেলে তৈরি করতে৷

৷

AI ইনফারেন্স পারফরম্যান্সকে প্রভাবিত করে অদেখা সংস্করণ সংক্রান্ত সমস্যা এই ক্রিয়েটিভ লাইসেন্সের অধীনে কাজ করে" অ্যাট্রিবিউশন-অবাণিজ্যিক- শেয়ারঅ্যালাইক 4.0 আন্তর্জাতিক লাইসেন্স।