قامت جوجل كلاود بنشر مدونة تشرح كيفية نشر نموذج ميتا لاما 3.2-1B-Instruct على خدمة Cloud Run باستخدام وحدات معالجة الرسومات. يقدم هذا المنشور إرشادات خطوة بخطوة حول كيفية استخدام Cloud Run GPU لنشر نماذج لغة كبيرة مفتوحة المصدر. يغطي المنشور أيضًا أفضل الممارسات لتبسيط عملية التطوير باستخدام الاختبار المحلي للنموذج مع صورة Docker الخاصة بـ Text Generation Inference (TGI)، مما يجعل استكشاف الأخطاء وإصلاحها أمرًا سهلاً ويعزز الإنتاجية. من خلال Cloud Run GPU، يمكن للمطورين الاستفادة من التوافر عند الطلب وقابلية التوسع السهلة التي يحبونها مع وحدة المعالجة المركزية والذاكرة في Cloud Run، مع القوة المضافة لوحدات معالجة الرسومات NVIDIA. عندما يكون تطبيقك خاملاً، يتم تصغير حجم المثيلات المجهزة بوحدة معالجة الرسومات تلقائيًا إلى الصفر، مما يحسن التكاليف. يقدم المنشور أيضًا نصائح حول كيفية تحسين بدء التشغيل البارد باستخدام Cloud Storage FUSE. يسمح Cloud Storage FUSE للمطورين بتحميل وحدات تخزين Google Cloud Storage كنظام ملفات، مما يقلل بشكل كبير من وقت بدء التشغيل البارد.