نشرت Google Cloud مدونة عملية حول كيفية زيادة إنتاجية خدمة LLM لوحدات معالجة الرسومات على GKE.

تتناول المدونة مشكلة التكلفة المرتفعة لخدمة نماذج الذكاء الاصطناعي الأساسية مثل نماذج اللغات الكبيرة (LLMs). تقدم GKE، من خلال ميزات مثل التحجيم التلقائي لحجم العمل والبنية التحتية وموازنة التحميل، حلاً فعالاً من حيث التكلفة.

تقدم المدونة توصيات عملية لزيادة إنتاجية الخدمة على وحدات معالجة الرسومات NVIDIA على GKE، بما في ذلك:

* **تحديد ما إذا كان يجب قياس النموذج ونوع القياس الذي يجب استخدامه.** يوفر قياس FP16 و Bfloat16 دقة مماثلة لـ FP32 مع استخدام نصف الذاكرة.

* **اختيار نوع الجهاز المناسب للنموذج.** يعتمد اختيار نوع الجهاز على عدد المعلمات في النموذج ونوع بيانات أوزان النموذج.

* **اختيار وحدة معالجة الرسومات المناسبة.** تقدم GKE مجموعة متنوعة من الأجهزة الظاهرية التي تعمل بواسطة وحدات معالجة الرسومات NVIDIA. يعتمد اختيار وحدة معالجة الرسومات على خصائص النموذج ومتطلبات الأداء.

بالإضافة إلى ذلك، تتناول المدونة كيفية تحسين نظام أساسي لخادم النموذج لحمل عمل استدلال معين، بما في ذلك:

* **التحسين لحالات الاستخدام كثيفة الإدخال مقابل حالات الاستخدام كثيفة الإخراج.** يتضمن استدلال LLM مرحلتين: التعبئة المسبقة وفك التشفير.

* **كيفية تأثير استخدام الدفعات على الأداء.** تعد طلبات الدُفعات ضرورية لتحقيق إنتاجية أعلى لأنها تستخدم المزيد من ذاكرة وحدة معالجة الرسومات وعرض النطاق الترددي HBM ووحدات معالجة الرسومات FLOPS دون زيادة في التكلفة.

بشكل عام، تقدم المدونة إرشادات عملية لزيادة إنتاجية خدمة LLM على وحدات معالجة الرسومات على GKE. من خلال اتباع هذه التوصيات، يمكن للمؤسسات تقليل تكلفة خدمة LLMs مع الاستمرار في توفير أداء عالٍ.