جيميني أومني من غوغل: تحويل أي نص أو صورة أو صوت إلى فيديو بالذكاء الاصطناعي
كشفت غوغل في مؤتمر I/O 2026 عن نموذج جيميني أومني متعدد الوسائط القادر على توليد الفيديو من أي مزيج من المدخلات، مع علامة مائية رقمية لمكافحة التزييف العميق.

كشفت شركة غوغل في مؤتمر المطورين السنوي I/O 2026 عن نموذج جديد يُعدّ الأكثر طموحاً في تاريخ الشركة؛ إذ أطلقت "جيميني أومني"، وهو النموذج متعدد الوسائط الذي يجمع بين فهم النصوص والصور والصوت والفيديو وتوليدها في آنٍ واحد.
وصف الرئيس التنفيذي لغوغل سوندار بيتشاي الهدف من النموذج بأنه "إنشاء أي شيء من أي مدخل"، مضيفاً أن الجديد لا يكتفي بدمج المدخلات تقنياً، بل يفهم السياق العلمي والثقافي والتاريخي المحيط بها. وهذا ما جعل جلسة الإطلاق مثيرةً بشكل استثنائي: طُلب من النموذج توليد مقطع فيديو بأسلوب الصلصال يشرح ظاهرة طيّ البروتينات، فأنتج مقطعاً بالحركة الإطارية مرفقاً بتعليق علمي دقيق.
النموذج متاح اليوم في نسختين: "جيميني أومني فلاش" الموجّهة للمستخدمين العامين، وتُدمج مع تطبيق جيميني ومنصة يوتيوب شورتس واستوديو الإبداع Flow. أما نسخة "أومني برو" المخصصة للمحترفين، فلا تزال قيد التطوير. وستُتاح واجهة برمجة التطبيقات للمطورين خلال أسابيع.
من الناحية التقنية، يُولّد النموذج مقاطع فيديو بمدة تصل إلى عشر ثوانٍ مع إمكانية التوسيع مستقبلاً. ويدعم النموذج أيضاً تحرير الصور بأوامر نصية بسيطة، وإنشاء صور رمزية رقمية مزوّدة بالتحقق الصوتي لمنع إساءة الاستخدام. وتتراوح الاستخدامات بين إنشاء مشاهد افتراضية للسفر في الفضاء وتوليد إعلانات تجارية احترافية.
غير أن الإضافة الأبرز ربما تكون نظام SynthID للعلامة المائية الرقمية الذي يُضمّنه غوغل في كل محتوى يُولّده الذكاء الاصطناعي التوليدي، مما يتيح التحقق من مصدر أي محتوى ويُضيّق الخناق على التزييف العميق. في عصر تتكاثر فيه مخاوف تزوير المحتوى الرقمي، يمثّل هذا النظام خطوةً تشغيلية حقيقية لا رمزية.
يأتي جيميني أومني في سياق سباق محتدم؛ فشركة OpenAI أطلقت نموذج Sora لتوليد الفيديو، وتدمج أدوبي قدرات مشابهة في Firefly، فيما تواصل ميتا تطوير نماذجها متعددة الوسائط. إلا أن ما يميّز جيميني أومني هو عمق تكامله مع منظومة غوغل الكاملة: من يوتيوب إلى غوغل درايف إلى غوغل لينز، مما يعني أن ملايين المستخدمين سيصطدمون بهذا النموذج دون قصد حين يبدأون في تصفح شورتس أو تحرير صورهم.
ثمة تحدٍّ عملي يُذكره المختبرون الأوائل: التعليمات التحريرية الدقيقة ضرورة لا ترف. إذا جاءت أوامر التحرير مبهمة، أحدث النموذج تغييرات غير مقصودة في الصورة أو الفيديو. وهذا يعني أن المستخدم العادي قد يحتاج وقتاً للتكيّف مع لغة المطالبات التي يفهمها النموذج.
في العالم العربي يفتح جيميني أومني أفقاً إبداعياً ضخماً، إذ يُمكّن المحتوى العربي من مزاحمة المنصات العالمية بأدوات إنتاج بصري متقدمة: من شركات الإعلانات في القاهرة ودبي، إلى صنّاع المحتوى المستقلين على «يوتيوب» و«تيك توك»، إلى استوديوهات الأنيميشن في الأردن والمغرب. غير أن التحدي الموازي حقيقي: يحتاج النموذج إلى تدريب أعمق على اللهجات والثقافات البصرية العربية كي يُنتج محتوى أصيلاً لا نسخةً متفرنجة بأرقام عربية. وفي الوقت ذاته تتنامى المخاوف من التزييف العميق لأصوات وصور سياسيين وفنانين عرب، ما يجعل العلامة المائية SynthID خط دفاع أول ضمن منظومة تشريعية إقليمية لا تزال غائبة.
المزيد من ذكاء اصطناعي

طلب بسيط يخترق وكيل الذكاء الاصطناعي لميتا ويكشف ثغرات أمن المساعدين الذكيين
مهاجمون استغلوا وكيل دعم العملاء الذكي في ميتا لتغيير عناوين البريد الإلكتروني لحسابات إنستغرام بطلب مباشر، كاشفين عن ثغرات بنيوية في تصميم عوامل الذكاء الاصطناعي المكلّفة بعمليات حساسة.

هل تسرق روبوتات الدردشة الذكية قدرتنا على التفكير والتركيز؟
عالمة نفس من UC Irvine تُطلق تحذيرات من الإسناد المعرفي المفرط لأدوات الذكاء الاصطناعي، مستندةً إلى بيانات تُظهر تراجع متوسط فترة التركيز من دقيقتين ونصف في 2003 إلى 47 ثانية فقط بحلول 2020.

30 مليار دولار لبناء مراكز بيانات الذكاء الاصطناعي في الهند بطاقة 5 جيجاواط
شركة AirTrunk الأسترالية تُعلن التزامًا بـ30 مليار دولار لإنشاء 5 جيجاواط من مراكز البيانات فائقة الحجم في الهند بحلول 2030، ضمن موجة استثمارية عالمية تُرسي الهند مركزًا للذكاء الاصطناعي.