براعة الوصف تنسج من الخيال مقاطع بالذكاء الاصطناعي لتحول أحلام اليقظة إلى واقع

براعة الوصف تنسج من الخيال مقاطع بالذكاء الاصطناعي لتحول أحلام اليقظة إلى واقع
هذه الصورة مولّدة بالكامل بالذكاء الاصطناعي

قبل مئات السنين، اشتهر العرب ببراعة الوصف، فكانوا ينسجون من الكلمات مشاهد ترسم في الأذهان صورة كاملة للمكان والزمان والحدث، وتجعل المستمع في حالة أشبه بمن يتابع فيلما حديثا في عصر السينما والفيديو.

في عصر الذكاء الاصطناعي، أصبح ممكنا صنع مقاطع مصورة كاملة باستخدام الكلمات وبراعة الوصف، حتى إن كانت لمشاهد من نسج الخيال أو أحلام اليقظة.

كل ما عليك هو أن تتخيل نفسك وأنت تسير في الفضاء، أو تسبح في أعماق المحيط، ليحوّل لك الذكاء الاصطناعي حلم اليقظة إلى واقع تراه على شاشة هاتفك المحمول، بعد أن تقدم له وصفا دقيقا للمشهد الذي ترغب فيه.

قبل نحو أسبوع، أطلقت شركة "جوجل" أحدث نموذج لصناعة المقاطع المصورة "الفيديو" بالذكاء الاصطناعي، وهو "Veo 3"، الذي يملك قدرات فريدة، بحسب ما قاله لـ "الاقتصادية" عبدالعزيز اليوسف، صانع المحتوى والمدرب المختص بالذكاء الاصطناعي التوليدي.

نموذج الذكاء الصناعي الجديد، يتيح تحويل الوصف النصي إلى مقاطع فيديو غنية بصريا ومُحسّنة صوتيا، ليقدّم تجربة مرئية وصوتية متكاملة، يسد بها فجوة الصوت التي كانت تشكل تحديا في الماضي.

مع هذا النموذج الجديد، يمكن للمستخدم أن يتصور رجلا واقفا على قمة جبل أثناء عاصفة، ينادي طفلا يركض نحوه؛ وفي أقل من دقيقة، يتحول النص الذي يكتبه إلى مشهد سينمائي متكامل.

تجربة سينمائية متكاملة يصنعها "Veo 3"

لا يأتي الصوت في "Veo 3" كطبقة مضافة، بل يُولّد ضمن السياق نفسه، ويُدمَج مباشرة مع حركات الشخصيات، بخاصية مزامنة شفاه دقيقة جدا، حتى لو كانت الشخصيات تتحدث بلهجة محلية مثل النجدية أو الشامية، بحسب اليوسف.

ولأن الإبداع لا يكتمل بأداة واحدة، صممت "جوجل" منصة "Flow" لتكون بمنزلة "غرفة المونتاج الذكية" حيث يمكن لمستخدمها التحكم في الكاميرا، وتغيير الزاوية، وإطالة المشهد، وإعادة استخدام الشخصيات، والتعديل، مع مراقبة النتيجة في الوقت الفعلي.

الميزة الأجمل، وفقا لليوسف، هي مكتبة "Flow TV" التي يمكن من خلالها استكشاف مشاهد صنعها آخرون، والاطلاع على نصوصها، والتعلّم منها، وكأنها "يوتيوب للذكاء الاصطناعي الإبداعي".

على الرغم من أن "Veo 3" ينطلق من "جوجل"، إلا أن الوصول إلى هذا الإصدار لا يقتصر على منصاتها، حيث بدأت أدوات خارجية مثل "Leonardo" و"Freepik" دمج النموذج في أنظمتها، ما يفتح بابا واسعا لصنّاع المحتوى.

يمكن القول إن التحول الذي يحدث الآن مع "Veo 3" يشبه إلى حد كبير ما حدث مع الكاميرا في البدايات، حيث أصبحت القدرة على الحكاية مرئية. "لكن الفرق اليوم هو أنك لا تحتاج معدات، فقط تحتاج خيالا".

نُسخ مختلفة من إصدار "Veo 3" لتجارب متنوعة

لا يقتصر إصدار "Veo 3" على نسخة واحدة؛ فهناك النسخة السينمائية الكاملة، إضافة إلى نسخة "Veo Fast" التي توفر نتائج سريعة.

كذلك، هناك نماذج خاصة بتوليد الفيديو من صورة واحدة فقط، أو صُنع مشاهد تحتوي على حوارات متعددة بلغات ولهجات مختلفة.

كل هذا يتحقق من خلال نموذج صوتي ذكي، يمكنه أن يتحدث بأكثر من نبرة وشخصية ولغة في المشهد الواحد.

بينما يتيح "Veo 3" إنتاج فيديو مدته 8 ثوان فقط، فإن المقاطع المصورة التي ينتجها من الممكن دمجها لتصبح فيلما كاملا عبر أدوات المونتاج التقليدية.

كُشف النقاب عن هذه التقنية لأول مرة خلال مؤتمر "جوجل" السنوي للمطورين في مايو الماضي قدمت الشركة حينها أداة "SynthID Detector" لمجموعة مختارة من المُختبرين، وتخطط لتوسيع نطاق الوصول إليها في المستقبل القريب.

الأكثر قراءة