আপনার ব্যবসার স্কেল হিসাবে ডেডিকেটেড এবং সার্ভারলেস এআই ইনফারেন্সের মধ্যে নির্বাচন করা

বেশিরভাগ সময়, বিকাশকারীরা সঠিক AI পরিকাঠামো বেছে নেওয়ার ক্ষেত্রে একটি চ্যালেঞ্জের মুখোমুখি হয় এবং মূল কথোপকথনগুলি AI সিস্টেম তৈরি করার জন্য সঠিক পছন্দটি কী হবে তার একটি সাধারণ প্রশ্নকে ঘিরে থাকে। নমনীয়তার জন্য সার্ভারহীন, নিয়ন্ত্রণের জন্য নিবেদিত , সুবিধা বনাম কর্মক্ষমতা।

অনুশীলনে, অনুমান পরিকাঠামো এমন কিছু নয় যা আপনি একবার "সঠিক চয়ন করুন"। এটি এমন কিছু যা সময়ের সাথে সাথে আপনার পণ্য, ট্রাফিক এবং প্রত্যাশার বিকাশের সাথে সাথে চুপচাপ ভুল হয়ে যায়।

একটি এআই-চালিত মিটিং সহকারীর উদাহরণ নিন। এর প্রথমতম সংস্করণে, এটি প্রতিদিন মুষ্টিমেয় মিটিং প্রক্রিয়া করে, প্রতিলিপি করে এবং একটি সময়ে একটি সংক্ষিপ্ত করে। ব্যবহার অনিয়মিত, এবং অগ্রাধিকার হল বৈশিষ্ট্যটি কাজ করা। সার্ভারহীন অনুমান এখানে একটি স্বাভাবিক ফিট।

পণ্যটি ট্র্যাকশন লাভ করার সাথে সাথে এটি প্রতিদিনের কর্মপ্রবাহের অংশ হয়ে ওঠে। দলগুলি সারা দিন মিটিং প্রক্রিয়া করার জন্য এটির উপর নির্ভর করে এবং টার্নঅ্যারাউন্ড সময়ের আশেপাশে প্রত্যাশাগুলি শক্ত হতে শুরু করে। সামগ্রিক কর্মক্ষমতা গ্রহণযোগ্য হলেও মাঝে মাঝে লেটেন্সি স্পাইকগুলি গুরুত্বপূর্ণ হতে শুরু করে৷

অবশেষে, সিস্টেমটি এমন একটি বিন্দুতে পৌঁছে যেখানে এটি পূর্বাভাসযোগ্য দৈনিক নিদর্শনগুলির সাথে উচ্চ পরিমাণে মিটিং পরিচালনা করে। এই পর্যায়ে, প্রয়োজনীয়তাগুলি সামঞ্জস্য এবং ব্যয় দক্ষতার দিকে চলে যায়। উত্সর্গীকৃত অনুমানটি যৌক্তিক ভিত্তি হয়ে ওঠে, কারণ আগের পদ্ধতিটি ভুল ছিল না, বরং সিস্টেমটি এটিকে ছাড়িয়ে গেছে।

মজার বিষয় হল, সার্ভারহীন অদৃশ্য হয় না। এটি প্রায়শই প্রান্তের ক্ষেত্রে, অপ্রত্যাশিত স্পাইকগুলি পরিচালনা করার জন্য, পরীক্ষামূলক বৈশিষ্ট্যগুলি চালানোর জন্য বা কম-ফ্রিকোয়েন্সি কাজগুলিকে সমর্থন করার জন্য কার্যকর থাকে। এটি স্বাভাবিকভাবেই উভয় পদ্ধতির মিশ্রণে পরিণত হয়, একটি নির্দিষ্ট পরিকল্পনার পরিবর্তে সিস্টেমের যা প্রয়োজন তা দ্বারা চালিত হয়৷

এই নিবন্ধে আমরা বোঝার চেষ্টা করব আমরা বোঝার চেষ্টা করব যে কীভাবে সিস্টেমের বৃদ্ধির সাথে সাথে সার্ভারহীন এবং উত্সর্গীকৃত অনুমানের মধ্যে পছন্দ বিকশিত হয়। আমরা Modal এবং Together.ai-এর মতো দুটি জনপ্রিয় প্ল্যাটফর্মও অন্বেষণ করব, উদাহরণ হিসাবে বোঝার জন্য যে সার্ভারহীন অনুমান কখন ভেঙে যেতে শুরু করে, কীভাবে কাজের চাপের ধরণগুলি সঠিক পছন্দকে আকার দেয় এবং কেন সিস্টেম স্কেল হিসাবে ডেডিকেটেড অবকাঠামোর দিকে অগ্রসর হওয়া অনিবার্য হয়ে ওঠে।

দ্য আর্লি স্টেজ

AI পণ্য তৈরির প্রাথমিক দিনগুলিতে, সবচেয়ে বড় সীমাবদ্ধতা কর্মক্ষমতা নয়, বিশেষ করে লেটেন্সি ধারাবাহিকতা (প্রতিটি অনুরোধ কত দ্রুত সাড়া দেয়) এবং থ্রুপুট (একবারে কতগুলি অনুরোধ পরিচালনা করা হয়), তবে আপনি কত দ্রুত শিপিং করতে পারেন, পুনরাবৃত্তি করতে পারেন এবং বাস্তব ব্যবহার থেকে শিখতে পারেন৷

প্রারম্ভিক দিনগুলিতে, কাজের চাপ এখনও বোঝা যায় নি, ট্র্যাফিক অসামঞ্জস্যপূর্ণ, মডেলগুলি পরিবর্তিত হচ্ছে এবং পণ্যটি নিজেই এখনও আকার ধারণ করছে। এই ধরনের ক্ষেত্রে, সার্ভারহীন প্ল্যাটফর্মগুলি বিকাশকারীর প্রয়োজনের জন্য প্রায় নিখুঁত মনে করে৷

৷

তারা এমন সিদ্ধান্তগুলি সরিয়ে দেয় যা অন্যথায় আপনাকে ধীর করে দেবে। আপনাকে GPU বিধান, স্কেলিং নীতি বা ক্ষমতা পরিকল্পনা সম্পর্কে চিন্তা করতে হবে না। আপনি কোড লিখুন, স্থাপন করুন, এবং সিস্টেম যা কিছু চাহিদা দেখায় তার সাথে খাপ খায়। প্রাথমিক পর্যায়ের অ্যাপ্লিকেশনগুলির জন্য, যেমন একটি প্রোটোটাইপ চ্যাটবট, একটি নথির সারাংশ, বা একটি অভ্যন্তরীণ AI টুল, এটি কেবল সুবিধাজনক নয়; এটি শিপিং এবং শিপিংয়ের মধ্যে পার্থক্য।

এই পর্যায়ে, অদক্ষতা কোন ব্যাপার না কারণ ব্যবহার নিজেই অনিশ্চিত। আপনি পুনরাবৃত্তি গতির জন্য অপ্টিমাইজ করছেন, পরিকাঠামো দক্ষতা নয়।

প্রথম শিফট:লেটেন্সি একটি পণ্যের সমস্যা হয়ে ওঠে

আপনার অবকাঠামোগত পছন্দ ভুলভাবে সংযোজন করা শুরু করছে এমন প্রথম চিহ্নটি খুব কমই একটি বিলিং ড্যাশবোর্ডে দেখা যায়। এটি ব্যবহারকারীর অভিজ্ঞতায় দেখায়। ব্যবহার বাড়ার সাথে সাথে, এমনকি পরিমিতভাবে, লেটেন্সি একটি তাত্ত্বিক মেট্রিক হওয়া বন্ধ করে এবং দৃশ্যমান হতে শুরু করে।

সার্ভারহীন সিস্টেমগুলি স্থিতিস্থাপকতার চারপাশে তৈরি করা হয়, যা প্রায়শই পরিবর্তনশীলতার সাথে আসে। পরিবেশ ইতিমধ্যে উষ্ণ থাকলে একটি অনুরোধ তাৎক্ষণিকভাবে ফিরে আসতে পারে, বা এটি একটি ঠান্ডা শুরু বা মডেল লোড ট্রিগার করলে উল্লেখযোগ্যভাবে বেশি সময় নিতে পারে। বিচ্ছিন্নভাবে, এটি গ্রহণযোগ্য। কিন্তু একটি ব্যবহারকারী-মুখী সিস্টেমে, গড় কর্মক্ষমতার তুলনায় অসামঞ্জস্যতা অনেক বেশি লক্ষণীয়৷

একটি গ্রাহক সহায়তা কর্মপ্রবাহে এমবেড করা একটি AI সহকারী বা IDE-এর ভিতরে একটি কোড জেনারেশন বৈশিষ্ট্য বিবেচনা করুন৷ উভয় ক্ষেত্রেই, ব্যবহারকারীরা প্রতিক্রিয়াশীলতা অবিলম্বে এবং অনুমানযোগ্য বোধ করার আশা করেন। কিছু ধীর প্রতিক্রিয়া উপলব্ধিতে গড় করে না, তবে সেগুলি আলাদা। একসময় যা অবকাঠামোগত বিশদ ছিল তা পণ্যের ত্রুটিতে পরিণত হয়।

দ্বিতীয় শিফট:যখন খরচ বাড়তে শুরু করে

আপনার সিস্টেম বাড়ার সাথে সাথে ব্যবহার আরও নিয়মিত হয়। যা মাঝে মাঝে অনুরোধ করা হত তা স্থির ট্র্যাফিক হয়ে যায় এবং যে বৈশিষ্ট্যগুলি একবার পরীক্ষা-নিরীক্ষা ছিল তা দৈনন্দিন ব্যবহারের অংশ হয়ে ওঠে। এটি যখন সার্ভারহীন মূল্য ভিন্ন মনে হতে শুরু করে।

যখন ব্যবহার অপ্রত্যাশিত হয় তখন সার্ভারলেস ভাল কাজ করে, কারণ কিছু চলে গেলেই আপনি অর্থ প্রদান করেন। কিন্তু একবার আপনার সিস্টেম সবসময় সক্রিয় থাকলে, ক্রমাগত অনুরোধগুলি পরিচালনা করা বা ব্যাকগ্রাউন্ডের কাজগুলি চালানোর পরে, আপনি একই কাজের জন্য বারবার অর্থ প্রদান করবেন। সময়ের সাথে সাথে, সেই সুবিধাটি ব্যয়বহুল হতে শুরু করে।

এই মুহুর্তে, ডেডিকেটেড অবকাঠামো, স্থির GPU-তে চলমান মডেলগুলি আরও অর্থপূর্ণ হতে শুরু করে। আপনার খরচের উপর আরও নিয়ন্ত্রণ প্রয়োজন, যা কার্যক্ষমতাকে আরও স্থিতিশীল করে তোলে, যতক্ষণ না আপনি দক্ষতার সাথে সম্পদ ব্যবহার করেন।

এখানে আসলে কিছুই ভুল হচ্ছে না। এর মানে হল আপনার সিস্টেমটি এমন একটি বিন্দুতে বেড়েছে যেখানে আগের সেটআপটি আর সবচেয়ে সাশ্রয়ী পছন্দ নয়৷

ওয়ার্কলোডের আকার, প্ল্যাটফর্ম পছন্দ নয়, ফলাফলকে চালিত করে

সময়ের সাথে সাথে যা স্পষ্ট হয়ে যায় তা হল যে সিদ্ধান্তটি আসলে দুটি ধরণের প্ল্যাটফর্মের মধ্যে নির্বাচন করার বিষয়ে নয়। এটি বোঝার বিষয়ে আপনার কাজের চাপ কীভাবে আচরণ করে এবং কীভাবে সেই আচরণ পরিবর্তন হয়।

অনেক দল যে ভুল করে তা ধরে নিচ্ছে তাদের বর্তমান কাজের চাপ স্থায়ী। বাস্তবে, বেশিরভাগ সিস্টেম একাধিক রাজ্যের মধ্য দিয়ে চলে। একটি অ্যাপ্লিকেশন অত্যন্ত স্পাইকি ব্যবহারের সাথে শুরু হতে পারে, আধা-অনুমানযোগ্য দৈনিক চক্রে রূপান্তরিত হতে পারে এবং অবশেষে একটি স্থির, উচ্চ-থ্রুপুট প্যাটার্নে স্থির হতে পারে। এই পর্যায়গুলির প্রতিটি একটি ভিন্ন পদ্ধতির পক্ষে।

মধ্য পর্যায়

সবচেয়ে কঠিন পর্যায়টি শুরু বা শেষ নয়, তবে তাদের মধ্যে পরিবর্তন। এখানেই সিস্টেমগুলি প্রায়শই "বন্ধ" বোধ করে, এমনকি যদি কিছুই ভেঙে না যায়। লেটেন্সি সমস্যাগুলি মাঝে মাঝে দেখা যায় কিন্তু ধারাবাহিকভাবে নয়, এবং খরচ বাড়তে শুরু করে, কিন্তু সম্পূর্ণ স্থাপত্য পরিবর্তনের ন্যায্যতা দেওয়ার জন্য যথেষ্ট নয়। বিকাশকারীরা কাজগুলি যোগ করা শুরু করে, যেমন ক্যাশিং প্রতিক্রিয়া, প্রি-ওয়ার্মিং এনভায়রনমেন্ট বা সামঞ্জস্যপূর্ণ জিনিসগুলিকে মসৃণ করার জন্য টুইকিং৷ এই পরিবর্তনগুলি সাময়িকভাবে সাহায্য করে, তবে এগুলিও ইঙ্গিত দেয় যে সিস্টেমটি মূলত যা জন্য ডিজাইন করা হয়েছিল তার বাইরে ঠেলে দেওয়া হচ্ছে৷

আমরা যদি আবার ক্রমবর্ধমান এআই গ্রাহক সহায়তা সহকারীর উদাহরণ গ্রহণ করি। প্রাথমিক পর্যায়ে, এটি অল্প সংখ্যক ক্যোয়ারী পরিচালনা করতে সক্ষম, কিন্তু গ্রহণের সংখ্যা বাড়ার সাথে সাথে সিস্টেমটি পিক আওয়ারে শত শত অনুরোধগুলি পরিচালনা করতে শুরু করে। বেশিরভাগ প্রতিক্রিয়া এখনও দ্রুত, কিন্তু কিছু ঠান্ডা শুরু বা স্কেলিং বিলম্বের কারণে লক্ষণীয়ভাবে বেশি সময় নেয়। দলটি বারবার প্রশ্নের জন্য ক্যাশিং যোগ করে এবং লেটেন্সি স্পাইক কমাতে প্রাক-উষ্ণায়নের চেষ্টা করে। একই সময়ে, তাদের মাসিক খরচ বৃদ্ধি পায় কারণ সিস্টেমটি এখন আরও ধারাবাহিকভাবে চলছে। যাইহোক, ট্র্যাফিক এখনও যথেষ্ট স্থিতিশীল নয় যাতে সম্পূর্ণরূপে ডেডিকেটেড GPU-তে সরানো যায়, যা অফ-আওয়ারে নিষ্ক্রিয় থাকতে পারে। এটি একটি হতাশাজনক মধ্যম স্থল তৈরি করে যেখানে সিস্টেমটি প্রযুক্তিগতভাবে কাজ করে, তবে ধ্রুবক টিউনিং প্রয়োজন, এবং সার্ভারহীন বা উত্সর্গীকৃত পরিকাঠামো একটি নিখুঁত উপযুক্ত বলে মনে হয় না৷

স্কেল এ

কিছু সময়ে, আপনার সিস্টেম অপ্রত্যাশিত হওয়া বন্ধ করে দেয়। আপনি জানেন মোটামুটিভাবে কতগুলি অনুরোধ আসছে। আপনি জানেন কখন ব্যস্ত সময়। অনুমান চলে গেছে।
এখন, আপনি এমন একটি সিস্টেমে অনুরোধ প্রতি অর্থ প্রদান করছেন যা কখনই চলা বন্ধ করে না। ঠাণ্ডা শুরু যা একসময় মাঝে মাঝে ছিল এখন অগ্রহণযোগ্য মনে হচ্ছে। ব্যবহারকারীরা দ্রুত, সামঞ্জস্যপূর্ণ প্রতিক্রিয়ার প্রত্যাশায় বেড়েছে এবং যে কোনো বৈচিত্র লক্ষ্য করা যায়। অবকাঠামো যা আপনাকে শুরুতে দ্রুত অগ্রসর হতে সাহায্য করেছিল এখন সেই জিনিসটি আপনাকে ধীর করে দিচ্ছে৷ ডেডিকেটেড অনুমান এটি পরিষ্কারভাবে সমাধান করে৷ আপনি একটি GPU রিজার্ভ করেন, আপনার মডেল লোড থাকে এবং প্রতিটি অনুরোধ একই অভিজ্ঞতা পায়। কোন শেয়ারিং, কোন স্পিন আপ বিলম্ব, কোন চমক.
অর্থনীতিতেও পরিবর্তন আসে। যখন আপনার সিস্টেম সর্বদা সক্রিয় থাকে, সংরক্ষিত কম্পিউটের জন্য অর্থ প্রদান ব্যবহার প্রতি অর্থ প্রদানের চেয়ে সস্তা হয়ে যায়। Together.ai-এর ডেডিকেটেড এন্ডপয়েন্ট, উদাহরণস্বরূপ, একটি H100 এর জন্য প্রতি ঘন্টায় প্রায় $3.99 থেকে শুরু করুন। স্থির ট্র্যাফিকের ক্ষেত্রে, এটি প্রায়শই আপনি সার্ভারবিহীন ব্যয়ের তুলনায় কম, এর উপরে আরও ভাল পারফরম্যান্স সহ। আপনি যা লাভ করেন তা কেবল কম খরচ বা দ্রুত প্রতিক্রিয়া নয়। এটি স্থিতিশীলতা। আপনি আপনার পরিকাঠামো টিউন করা বন্ধ করুন এবং এটি বিশ্বাস করা শুরু করুন। তখনই আপনি পণ্য তৈরিতে পুরোপুরি মনোযোগ দিতে পারেন, এর নিচের স্তরটি পরিচালনা না করে। সার্ভারলেস পুরোপুরি চলে যায় না। এটি এখনও প্রান্তের ক্ষেত্রে পরিচালনা করে:অপ্রত্যাশিত স্পাইক, পরীক্ষামূলক বৈশিষ্ট্য এবং কম ফ্রিকোয়েন্সি কাজ। কিন্তু এটি আর আপনার মূল কাজের চাপ বহন করে না। ডেডিকেটেড অবকাঠামো এখন তা করে।

বিকাশকারীরা প্রকৃতপক্ষে সার্ভারলেস ইনফারেন্স প্ল্যাটফর্মগুলি কীভাবে অনুভব করে

এই সিস্টেমগুলি কীভাবে আচরণ করে তা বোঝার একটি ভাল উপায় হল বিকাশকারীরা কীভাবে দুটি সাধারণভাবে ব্যবহৃত প্ল্যাটফর্মের সাথে যোগাযোগ করে তা দেখা:Modal এবং Together.ai। উভয়ই একই ধারণা থেকে শুরু করে যা পরিকাঠামোকে বিমূর্ত করে, কিন্তু যেভাবে বিমূর্ততা দেখায় অনুশীলনে (বিশেষ করে মূল্য এবং স্কেলিং) তা প্রকাশ করে যে জিনিসগুলি কোথায় ভাল কাজ করে এবং কোথায় ট্রেড-অফ শুরু হয়৷

মোডাল

মোডাল একটি সার্ভারহীন মডেলের চারপাশে ডিজাইন করা হয়েছে যেখানে আপনি গণনা সময়ের জন্য কঠোরভাবে অর্থ প্রদান করেন। GPU ব্যবহার, উদাহরণস্বরূপ, প্রতি সেকেন্ডে বিল করা হয়, মোটামুটি $0.0002/সেকেন্ড ছোট GPUs (যেমন L4) এর জন্য প্রায় $0.0011/সেকেন্ড পর্যন্ত H100-এর মতো উচ্চ-সম্পন্ন GPUগুলির জন্য, যা হার্ডওয়্যারের উপর নির্ভর করে প্রায় $0.8–$4 প্রতি ঘন্টায় অনুবাদ করে৷ প্রায় $30 মাসিক ক্রেডিট সহ একটি বিনামূল্যের স্তরও রয়েছে, যা অগ্রিম খরচ ছাড়াই শুরু করা সহজ করে তোলে। অনুশীলনে, এটি ফার্টি ওয়ার্কলোডের জন্য অত্যন্ত ভাল কাজ করে, উদাহরণস্বরূপ, একটি ইমেজ জেনারেশন API যা ব্যবহারকারীরা এটিকে ট্রিগার করলেই ট্র্যাফিক পায়, বা একটি ব্যাকগ্রাউন্ড জব যা দিনে কয়েকবার চলে। আপনি নিষ্ক্রিয় GPU-এর জন্য অর্থ প্রদান করছেন না এবং স্বয়ংক্রিয়ভাবে স্কেলিং ঘটে। কিন্তু ব্যবহার ক্রমাগত হয়ে উঠলে, আসুন আমরা বলি, আপনি একটি রিয়েল-টাইম অবজেক্ট ডিটেকশন মডেল চালাচ্ছেন যা সারাদিন ধরে অবিচ্ছিন্নভাবে ছবিগুলি পরিচালনা করে, মূল্যের মডেলটি তার ট্রেড-অফগুলি প্রকাশ করতে শুরু করে। আপনি আর "ব্যবহৃত হলেই অর্থ প্রদান" থেকে উপকৃত হচ্ছেন না কারণ সিস্টেমটি সর্বদা ব্যবহার করা হচ্ছে। পরিবর্তে, আপনি কার্যকরভাবে একই GPU বারবার ছোট ইনক্রিমেন্টে ভাড়া নিচ্ছেন, প্রায়শই কেবল একটি চলমান রাখার চেয়ে বেশি ক্রমবর্ধমান খরচে। একই সময়ে, কোল্ড স্টার্ট এবং কন্টেইনার পুনঃব্যবহারের মত কার্যকারিতা বৈশিষ্ট্য পরিবর্তনশীলতার পরিচয় দেয় যা উৎপাদন পরিবেশে উপেক্ষা করা কঠিন হয়ে পড়ে।

Together.ai

Together.ai একটি সার্ভারবিহীন API দিয়ে শুরু হয়, কিন্তু ক্রমবর্ধমান সিস্টেমের জন্য যা এটি আকর্ষণীয় করে তোলে তা হল যে এটি আপনাকে প্ল্যাটফর্ম পরিবর্তন করতে বাধ্য করে না কারণ আপনার প্রয়োজন পরিবর্তন হয়। আপনি আপনার কোড কীভাবে পরিবর্তন না করেই মৌলিক API ব্যবহার থেকে ডেডিকেটেড GPU এন্ডপয়েন্টে যেতে পারেন।

এন্ট্রি লেভেলে, আপনি প্রতি টোকেন প্রদান করবেন। মডেল ভেদে দাম পরিবর্তিত হয়, প্রতি মিলিয়ন টোকেন মোটামুটি $0.10 থেকে $3, যা ট্রাফিক হালকা বা অপ্রত্যাশিত হলে ভাল কাজ করে। আপনি স্বয়ংক্রিয়-স্কেলিং পান এবং পরিচালনা করার জন্য কোন পরিকাঠামো নেই। বেশিরভাগ ব্যবহারের ক্ষেত্রে এটি একটি যুক্তিসঙ্গত সূচনা বিন্দু।

ট্রাফিক বাড়ার সাথে সাথে এবং লেটেন্সি গুরুত্বপূর্ণ হতে শুরু করে, Together.ai আপনাকে ডেডিকেটেড এন্ডপয়েন্টে যেতে দেয়। আপনি আপনার হার্ডওয়্যার বাছাই করুন:একটি H100 প্রায় $3.99 প্রতি ঘন্টা বা একটি H200 প্রায় $5.49 প্রতি ঘন্টা, এবং সেই GPU আপনার। কোন ভাগ করা গণনা, অন্য কাজের চাপ থেকে কোন হস্তক্ষেপ. মডেলটি লোড থাকে, এবং আপনার লেটেন্সি প্রোফাইল সামঞ্জস্যপূর্ণ হয়৷

৷

যেকোন ডেডিকেটেড সেটআপের সাথে আপনি ট্রেড-অফের মুখোমুখি হন। অফ-আওয়ারে আপনার ট্রাফিক কমে গেলে, সেই GPU এখনও চলছে। আপনি ক্ষমতার জন্য অর্থ প্রদান করছেন আপনি এটি ব্যবহার করুন বা না করুন। যখন আপনার কাজের চাপ স্থির থাকে তখন এটি ভাল।

যে দলগুলো স্কেল করছে তাদের জন্য, Together.ai-এর ব্যবহারিক সুবিধা হল মাইগ্রেশন পাথ অভ্যন্তরীণ। ডেডিকেটেড পারফরম্যান্স পেতে আপনি আপনার ইন্টিগ্রেশন পুনর্নির্মাণ করবেন না। আপনি শেষ পয়েন্ট কনফিগারেশন পরিবর্তন করুন. এটি দেরি করার পরিবর্তে সঠিক সময়ে শিফট করার ক্ষেত্রে একটি বাস্তব বাধা দূর করে কারণ সুইচটি খুব বিঘ্নিত বলে মনে হয়।

উদাহরণস্বরূপ, একটি মাঝারি আকারের মডেল চালানোর জন্য প্রতি মিলিয়ন ইনপুট টোকেনে প্রায় $0.10–$0.60 খরচ হতে পারে, আউটপুট টোকেন কখনও কখনও মডেলের উপর নির্ভর করে বেশি হয়৷ এটি চ্যাটবট বা টেক্সট জেনারেশন এপিআই-এর মতো ব্যবহারের ক্ষেত্রে এটিকে স্বজ্ঞাত করে তোলে, যেখানে ব্যবহারের সাথে খরচ স্কেল হয়। উদাহরণস্বরূপ, একটি গ্রাহক সহায়তা বট প্রতিদিন কয়েক মিলিয়ন টোকেন তৈরি করতে ভলিউমের উপর নির্ভর করে প্রতি মাসে দশ থেকে শত ডলার খরচ করতে পারে। একই সময়ে, Together.ai একটি H100 এর জন্য প্রায় $3.99/ঘন্টা থেকে শুরু করে ডেডিকেটেড GPU এন্ডপয়েন্ট অফার করে যখন কাজের চাপ স্থির হয়ে যায়। এটি একটি সাধারণ প্যাটার্নকে প্রতিফলিত করে:বিকাশকারীরা সহজ API-ভিত্তিক ব্যবহার দিয়ে শুরু করে, কিন্তু ট্র্যাফিক স্থিতিশীল হওয়ার সাথে সাথে লেটেন্সি প্রত্যাশা বাড়লে, তারা প্রায়শই আরও অনুমানযোগ্য কর্মক্ষমতা এবং খরচের জন্য ডেডিকেটেড সেটআপের দিকে চলে যায়৷

গুরুত্বপূর্ণ স্থানান্তরটি প্ল্যাটফর্ম নয়—এটি হল আপনি সময়ের সাথে এটি কীভাবে ব্যবহার করেন :

প্রাথমিক পর্যায় → আপনি এটি একটি সাধারণ API এর মত ব্যবহার করেন
বৃদ্ধির পর্যায় → আপনি বিলম্ব এবং খরচ সম্পর্কে উদ্বিগ্ন হতে শুরু করেন
স্কেল → আপনি ডেডিকেটেড এন্ডপয়েন্টে চলে যান একই প্ল্যাটফর্মের মধ্যে

তাই বিশুদ্ধ সার্ভারহীন প্ল্যাটফর্মের বিপরীতে, আপনি অগত্যা প্রদানকারী পরিবর্তন করবেন না—আপনি মোড পরিবর্তন করুন .

আপনি সিদ্ধান্ত নেওয়ার আগে বিবেচনা করার বিষয়গুলি

আপনার প্রত্যাশার চেয়ে ভিন্নভাবে খরচের স্কেল: সার্ভারহীন প্ল্যাটফর্মগুলি গণনার প্রতি সেকেন্ডের জন্য একটি নির্দিষ্ট অন-ডিমান্ড হার চার্জ করে। যখন আপনার সিস্টেম নিষ্ক্রিয় থাকে, সেই মডেলটি কার্যকর। যখন আপনার সিস্টেম অবিচ্ছিন্নভাবে চলে, তখন সেই একই হার চব্বিশ ঘন্টা কোন ত্রাণ ছাড়াই চলে। অবকাঠামো যা সংরক্ষিত ক্ষমতাকে সমর্থন করে তা কার্যকর ঘন্টার খরচ উল্লেখযোগ্যভাবে কমিয়ে আনতে পারে, কখনও কখনও অর্ধেকেরও বেশি। আপনার কাজের চাপ যত দীর্ঘ হবে অনুমানযোগ্য, তত বেশি পার্থক্য বাড়বে।
পরিচালিত ডিফল্ট সময়ের সাথে সীমাবদ্ধতায় পরিণত হয় :পরিচালিত অনুমান প্ল্যাটফর্ম, মাঝে মাঝে, আপনার পক্ষে কনফিগারেশন সিদ্ধান্ত নেয়। কোন অপ্টিমাইজেশানগুলি চলে, কীভাবে মেমরি পরিচালনা করা হয় এবং কীভাবে অনুরোধগুলি ব্যাচ করা হয়। প্রাথমিক পর্যায়ে, সেই ডিফল্টগুলি সময় বাঁচায়। পরে, যখন আপনার নির্দিষ্ট কাজের চাপের জন্য আপনার অনুমান স্তরটি টিউন করতে হবে, সেই একই ডিফল্টগুলি পথে চলে যায়। আপনি কনফিগারেশন অ্যাক্সেস করতে না পারলে, আপনি এটি পরিবর্তন করতে পারবেন না। অবকাঠামোর মালিক হওয়া মানে সেই সেটিংস আপনার।
প্ল্যাটফর্ম আপনাকে যা দেখায় তাতে আপনার দৃশ্যমানতা সীমিত :একটি পরিচালিত প্ল্যাটফর্মে, যখন কিছু ভুল হয়ে যায় বা অপ্রত্যাশিতভাবে খরচ বেড়ে যায়, তখন আপনার তদন্ত করার ক্ষমতা প্ল্যাটফর্মটি আপনার জন্য তৈরি করা ড্যাশবোর্ডের মধ্যেই সীমাবদ্ধ থাকে৷ আপনি দেখতে পাচ্ছেন যে কিছু ধীর বা ব্যয়বহুল, তবে পরিকাঠামো স্তর নাগালের বাইরে থাকলে ঠিক কেন কঠিন তা খুঁজে বের করা। ডেডিকেটেড অবকাঠামো আপনাকে কম্পিউট, নেটওয়ার্কিং এবং স্টোরেজ জুড়ে সম্পূর্ণ পর্যবেক্ষণযোগ্যতা দেয়। আপনি সবকিছু দেখেন, এবং আপনি এটিতে কাজ করতে পারেন।
আরো নিয়ন্ত্রণ মানে আরো দায়িত্ব: আপনার পরিকাঠামোর মালিকানা আপনাকে কম খরচ, গভীর নিয়ন্ত্রণ এবং সম্পূর্ণ দৃশ্যমানতা দেয়। কিন্তু এর মানে হল যে আপনি সেটআপ এবং অপারেশনাল কাজটি গ্রহণ করেন যা পরিচালিত প্ল্যাটফর্মগুলি আপনার জন্য পরিচালনা করে। এটি সর্বদা সঠিক কল নয়, বিশেষ করে যদি আপনার দল ছোট হয় বা আপনার কাজের চাপ এখনও পরিবর্তিত হয়৷ এটি বলেছে, একটি সঠিক প্ল্যাটফর্ম সর্বদা পরিচালিত এবং স্ব-পরিচালিত প্ল্যাটফর্মগুলির মধ্যে ব্যবধান কমাতে সঠিক ভারসাম্য বজায় রাখে৷ কিছু অবকাঠামো প্ল্যাটফর্ম এখন প্রি-কনফিগার করা ইনফারেন্স ইমেজ, ওয়ান-ক্লিক জিপিইউ ডিপ্লয়মেন্ট এবং কুবারনেটস সাপোর্ট করে বক্সের বাইরে, যার মানে আপনি শূন্য থেকে শুরু করছেন না। অপারেশনাল ওভারহেড বাস্তব, কিন্তু এটি আগের তুলনায় অনেক হালকা।

উপসংহার

সার্ভারহীন অনুমান আপনাকে শুরু করতে, পরীক্ষা করতে এবং ঘর্ষণ ছাড়াই জাহাজে যাওয়ার গতি দেয়৷ কিন্তু আপনার সিস্টেমের বৃদ্ধির সাথে সাথে, খুব বিমূর্ততা যা আপনাকে একবার দ্রুত অগ্রসর হতে সাহায্য করেছিল তা সবচেয়ে গুরুত্বপূর্ণ জিনিসগুলিকে আড়াল করতে শুরু করতে পারে:লেটেন্সি কনসিস্টেন্সি, থ্রুপুট এবং খরচ দক্ষতা৷ Modal এবং Together.ai-এর মতো প্ল্যাটফর্মগুলি সহজে তৈরি এবং স্কেল করা সহজ করে তোলে এবং অনেক ক্ষেত্রে, তারা পরেও আর্কিটেকচারের অংশ থেকে যায়৷ কিন্তু কাজের চাপ যখন অনুমানযোগ্য হয়ে ওঠে এবং প্রত্যাশাগুলি আঁটসাঁট হয়ে যায়, তখন আরও নিয়ন্ত্রণের প্রয়োজনীয়তা অনিবার্য হয়ে ওঠে৷ বাস্তব-বিশ্বের সিস্টেমগুলি স্থির থাকে না; তারা অনিশ্চয়তা থেকে ভবিষ্যদ্বাণীতে, পরীক্ষা থেকে উৎপাদনে চলে যায়। এবং তারা যেমন করে, "সঠিক" অবকাঠামো পছন্দ তাদের সাথে বদলে যায়৷ দলগুলি যে আসল ভুল করে তা হল সার্ভারহীনকে একটি দীর্ঘমেয়াদী ডিফল্ট হিসাবে বিবেচনা করা, এটি আসলে কী:একটি পর্যায়৷ আপনার কাজের চাপ স্থিতিশীল হওয়ার পরে আপনি ডেডিকেটেড পরিকাঠামোতে যেতে যত দেরি করবেন, তত বেশি আপনি খরচ, কার্যক্ষমতা বা উভয়ই পরিশোধ করবেন।

আপনার ব্যবসার স্কেল হিসাবে ডেডিকেটেড এবং সার্ভারলেস এআই ইনফারেন্সের মধ্যে নির্বাচন করা এই ক্রিয়েটিভ লাইসেন্সের অধীনে কাজ করে" অ্যাট্রিবিউশন-অবাণিজ্যিক- শেয়ারঅ্যালাইক 4.0 আন্তর্জাতিক লাইসেন্স।