نشرت جوجل كلاود مدونة حول "توفير تكاليف وحدات معالجة الرسومات: القياس التلقائي الأكثر ذكاءً لأحمال عمل الاستدلال في GKE". تناقش المقالة كيف يمكن أن يكون تشغيل أحمال عمل استدلال نموذج اللغة باهظ التكلفة، حتى عند استخدام أحدث النماذج والبنية التحتية مفتوحة المصدر.
أحد الحلول المقترحة هو القياس التلقائي، والذي يساعد على تحسين التكاليف من خلال ضمان تلبية طلب العملاء مع الدفع فقط مقابل مسرعات الذكاء الاصطناعي التي تحتاجها.
تقدم المقالة إرشادات حول كيفية إعداد القياس التلقائي لأحمال عمل الاستدلال في GKE، مع التركيز على اختيار المقياس المناسب.
وجدت أنه من المثير للاهتمام بشكل خاص مقارنة المقاييس المختلفة للقياس التلقائي على وحدات معالجة الرسومات، مثل استخدام GPU مقابل حجم الدُفعة مقابل حجم قائمة الانتظار.
لقد وجدت أن استخدام استخدام وحدة معالجة الرسومات ليس مقياسًا فعالًا للقياس التلقائي لأحمال عمل LLM لأنه قد يؤدي إلى زيادة التزويد. من ناحية أخرى، يوفر حجم الدُفعة وحجم قائمة الانتظار مؤشرات مباشرة لحركة المرور التي تواجهها خادم الاستدلال، مما يجعلها مقاييس أكثر فاعلية.
بشكل عام، قدمت المقالة نظرة عامة مفيدة حول كيفية تحسين أداء تكلفة أحمال عمل استدلال LLM على GKE. أوصي بقراءة المقالة من قبل أي شخص يتطلع إلى نشر أحمال عمل استدلال LLM على GKE.