قدمت مجموعة "ميتا"، واجهة الذكاء الاصطناعي التوليدي الجديدة "موفي جن" Movie Gen التي تتيح إنشاء مقاطع فيديو بالصوت بالاستناد إلى نصوص أو صور، وهو ما تسمح به خدمات رائدة أخرى في الذكاء الاصطناعي.
وباتت Movie Gen نموذج توليد الصور الثالث لمجموعة "ميتا" بعد نموذج أول صدر في يوليو/ تموز 2022، وثانٍ في نوفمبر/ تشرين الثاني 2023.
ولم تتم إتاحة أي من الواجهات الثلاث للعامة، إذ تخضع للاختبار في هذه المرحلة من صانعي محتوى ومخرجين يقوّمون Movie Gen ويساعدون في تحسين البرنامج.
ولم يعرف بعد موعد طرح Movie Gen من قبل "ميتا".
وبالإضافة إلى مقاطع الفيديو التوضيحية، نشرت المجموعة الجمعة وثيقة بحثية تتضمن توصيفًا للنموذج الجديد.
ونماذج اللغة هي برامج تعتمد على قواعد بيانات ضخمة، ما يسمح لها بإنشاء محتوى، من نص أو صورة أو فيديو أو صوت أو رمز معلوماتية، استجابة لطلب تمت صياغته باللغة اليومية.
وبإمكان Movie Gen إنتاج مقطع فيديو بناءً على طلب مكتوب، وأيضًا من صورة. كما يوفر وظائف تحرير لمقاطع فيديو موجودة.
إضافة مقطع صوتي إلى الفيديو
ويتيح النموذج أيضًا إضافة مقطع صوتي إلى الفيديو، وفقًا للمبدأ نفسه القائم على الطلبات باللغة اليومية.
في مقطع قصير نُشر على موقع "ميتا"، يكفي التلفظ بجملة واحدة لتعديل فيديو عبر إضافة مشاهد لسيارة رباعية الدفع في الصحراء مع صوت محرك هادر ونغمة غيتار.
وألمحت "ميتا" إلى أن نسخة Movie Gen قد تصبح متاحة للاستخدام يومًا ما عبر شبكتي إنستغرام وفيسبوك، أو حتى من خلال رسائل واتساب.
وليست "ميتا" أول مشغل للذكاء الاصطناعي يطوّر نموذجًا لإنشاء الفيديو.
صورة في لوحة فنية
فبرنامج "رانواي" Runway، من شركة "رانواي إيه آي" Runway AI الناشئة، يتيح من خلال طلب مكتوب، إنشاء لقطة مدتها بضع ثوانٍ، أو تحويل سلسلة من الصور الثابتة إلى فيديو قصير، أو إعادة تشكيل تسلسل موجود لتحويله، على سبيل المثال، صورة في لوحة فنية.
وأطلقت "أوبن إيه آي" OpenAI في فبراير/ شباط الفائت نسختها المسماة "سورا" Sora، بينما تعمل غوغل على نموذج يُسمّى "لوميير" Lumiere.
وتقول "ميتا" إن Movie Gen "يتفوق على نماذج القطاع المماثلة عند تقييم إنتاجها من جانب البشر".