أعلنت Amazon Data Firehose عن إمكانية جديدة لالتقاط التغييرات في قواعد البيانات مثل PostgreSQL و MySQL ونسخ التحديثات إلى جداول Apache Iceberg على Amazon S3. توفر هذه الإمكانية حلاً بسيطًا من طرف إلى طرف لتحديثات تدفق قاعدة البيانات دون التأثير على أداء المعاملات لتطبيقات قاعدة البيانات. يمكن للمستخدمين إعداد تدفق Data Firehose في دقائق لتقديم تحديثات التقاط بيانات التغيير (CDC) من قواعد بياناتهم. يمكنهم الآن بسهولة نسخ البيانات من قواعد بيانات مختلفة إلى جداول Iceberg على Amazon S3 واستخدام البيانات المحدثة لتحليلات واسعة النطاق وتطبيقات التعلم الآلي (ML). يستخدم عملاء AWS عادةً مئات قواعد البيانات لتطبيقات المعاملات. لأداء تحليلات واسعة النطاق وتعلم آلي على أحدث البيانات، يرغبون في التقاط التغييرات التي تم إجراؤها في قواعد البيانات، مثل عند إدراج أو تعديل أو حذف السجلات في جدول، وتقديم التحديثات إلى مستودع البيانات أو بحيرة بيانات Amazon S3 بتنسيقات جداول مفتوحة المصدر مثل Apache Iceberg. للقيام بذلك، يقوم العديد من العملاء بتطوير مهام استخراج وتحويل وتحميل (ETL) للقراءة بشكل دوري من قواعد البيانات. ومع ذلك، تؤثر قارئات ETL على أداء معاملات قاعدة البيانات، ويمكن أن تضيف المهام المجمعة عدة ساعات من التأخير قبل أن تصبح البيانات متاحة للتحليلات. للتخفيف من التأثير على أداء معاملات قاعدة البيانات، يرغب العملاء في القدرة على تدفق التغييرات التي تم إجراؤها في قاعدة البيانات. يُشار إلى هذا التدفق باسم تدفق التقاط بيانات التغيير (CDC). مع إمكانية تدفق البيانات الجديدة هذه، تضيف Amazon Data Firehose القدرة على الحصول على تدفقات CDC ونسخها باستمرار من قواعد البيانات إلى جداول Apache Iceberg على Amazon S3. يقوم المستخدمون بإعداد تدفق Data Firehose عن طريق تحديد المصدر والوجهة. يلتقط Data Firehose وينسخ باستمرار لقطة بيانات أولية ثم جميع التغييرات اللاحقة التي تم إجراؤها على جداول قاعدة البيانات المحددة كتدفق بيانات. للحصول على تدفقات CDC، يستخدم Data Firehose سجل نسخ قاعدة البيانات، مما يقلل من التأثير على أداء معاملات قاعدة البيانات. عندما يزيد أو ينقص حجم تحديثات قاعدة البيانات، يقوم Data Firehose تلقائيًا بتقسيم البيانات، ويحافظ على السجلات حتى يتم تسليمها إلى الوجهة. لا يتعين على المستخدمين توفير سعة أو إدارة وضبط المجموعات. بالإضافة إلى البيانات نفسها، يمكن لـ Data Firehose إنشاء جداول Apache Iceberg تلقائيًا باستخدام نفس مخطط جداول قاعدة البيانات كجزء من إنشاء تدفق Data Firehose الأولي وتطوير مخطط الهدف تلقائيًا، مثل إضافة عمود جديد، بناءً على تغييرات مخطط المصدر. نظرًا لأن Data Firehose هي خدمة مُدارة بالكامل، لا يتعين على المستخدمين الاعتماد على مكونات مفتوحة المصدر أو تطبيق تحديثات البرامج أو تحمل النفقات التشغيلية. يوفر النسخ المتواصل لتغييرات قاعدة البيانات إلى جداول Apache Iceberg في Amazon S3 باستخدام Amazon Data Firehose حلاً بسيطًا وقابلًا للتطوير ومُدارًا من طرف إلى طرف لتقديم تدفقات CDC إلى بحيرة البيانات أو مستودع البيانات، حيث يمكن للمستخدمين تشغيل تحليلات واسعة النطاق وتطبيقات التعلم الآلي.