ChatGPT تُطلق نموذج Images 2.0 لتوليد صور بدقة نصية غير مسبوقة

أعلنت OpenAI عن نموذجها الجديد ChatGPT Images 2.0 الذي يُحقق قفزة نوعية في عرض النصوص داخل الصور المولّدة بالذكاء الاصطناعي، بدقة تصل إلى 2K ودعم اللغات غير اللاتينية بما فيها العربية.

تحرير
ألمعي · هيئة التحرير
النشر
٢١ أبريل ٢٠٢٦
المصدر
TechCrunch
القراءات
٨
الوقت
قراءة 3 دقائق
شعار OpenAI الحلزوني الملوّن على خلفية داكنة

أعلنت شركة OpenAI يوم الثلاثاء عن إطلاق نموذجها الجديد ChatGPT Images 2.0، وهو أحدث جيل من نماذج توليد الصور القائمة على الذكاء الاصطناعي، مُمثّلاً قفزة نوعية في قدرة الأنظمة الذكية على تحويل الأوصاف النصية إلى صور بدقة احترافية، لا سيما في مجال عرض النصوص المكتوبة داخل الصور المُولَّدة.

طوال السنوات الماضية، ظلّ دمج النص المكتوب ضمن الصور المولّدة بالذكاء الاصطناعي تحدياً عصياً. فقد دأبت النماذج السابقة على تشويه الحروف وتحريف الكلمات بشكل يُفسد الاستخدامات الاحترافية؛ فقد كانت قائمة طعام افتراضية تخرج بأسماء أصناف مشوّهة من قبيل enchuite وchuriros وburrto، وهو ما يعكس محدودية حقيقية في قدرة هذه النماذج على معالجة النص. أما اليوم، فيبدو أن نموذج Images 2.0 قد تجاوز هذا العائق تجاوزاً حقيقياً.

يتميز النموذج الجديد بجملة من القدرات التقنية المتقدمة، أبرزها دمج ما أطلقت عليه الشركة قدرات التفكير، وهي ميزة تُمكّن النموذج من البحث في الويب وتوليد صور متعددة من مطالبة نصية واحدة، فضلاً عن التحقق من صحة مخرجاته قبل تسليمها للمستخدم. ويدعم النموذج دقة وضوح تصل إلى 2K، كما يُجيد عرض النصوص بلغات غير لاتينية تشمل اليابانية والكورية والهندية والبنغالية.

وصفت OpenAI نموذجها الجديد بأنه يُقدّم مستوى غير مسبوق من الخصوصية والدقة في توليد الصور، قادراً على تجسيد النصوص الصغيرة وعناصر واجهة المستخدم والتراكيب الصورية المكثفة التي طالما أربكت النماذج السابقة. وتكفي مقارنة بسيطة بين مخرجات DALL-E 3 في عام 2024 ومخرجات Images 2.0 اليوم للتيقّن من حجم التقدم المحقق في هذا المجال.

تمتد إمكانات النموذج الجديد لتشمل إنشاء مواد تسويقية بأشكال ومقاسات مختلفة، وتصميم قصص مصوّرة متعددة اللوحات، وإنتاج رسوم بيانية ومخططات تفاعلية يمكن استخدامها مباشرة في العروض التقديمية والمنشورات الرقمية. غير أن توليد الصور المعقدة قد يستغرق عدة دقائق نظراً للثقل الحسابي الذي تستلزمه العمليات المعتمدة على التفكير والتحقق.

يعمل النموذج في وضعين متمايزين: الوضع الفوري المتاح لجميع المستخدمين بما فيهم أصحاب الحسابات المجانية، والوضع التفكيري المخصص للمشتركين في الخطط المدفوعة الذين يحتاجون إلى مخرجات أكثر تعقيداً ودقة. أما المطوّرون، فقد صار بإمكانهم الوصول إلى واجهة برمجة التطبيقات تحت المُعرِّف gpt-image-2 بتسعير يعتمد على حجم المخرجات، إذ تبلغ تكلفة الرموز المرئية المُدخلة 8 دولارات لكل مليون رمز، فيما تبلغ تكلفة المخرجات المولّدة 30 دولاراً لكل مليون رمز.

يطرح هذا الإصدار تساؤلات جوهرية حول مستقبل صناعات التصميم الجرافيكي والإعلام الرقمي والتسويق. فإذا كانت نماذج الجيل الأول قد قدّمت نفسها أدوات مساعدة تعمل بجانب المصمّم البشري، فإن نموذج Images 2.0 يُلمّح إلى عتبة جديدة تصير فيها جودة المخرجات كافية للاستخدام التجاري المباشر في كثير من السياقات دون الحاجة إلى تدخل متخصص.

يأتي هذا الإعلان في سياق منافسة حادة في سوق توليد الصور، إذ تتنافس شركات كـ Midjourney وStability AI وAdobe Firefly على الحصص نفسها. ويبدو أن OpenAI تستثمر تكاملها العضوي مع ChatGPT لتقديم تجربة أكثر سلاسة للمستخدم النهائي، بدلاً من إلزامه بتعلم واجهات مستقلة متعددة.

تجدر الإشارة إلى أن بيانات التدريب للنموذج الجديد تنتهي في ديسمبر 2025، غير أن قدرات البحث المدمجة في وضع التفكير تُتيح له جزئياً استيعاب المعلومات المعاصرة وتوظيفها في الصور المولّدة. وقد أكدت الشركة أن جميع الصور الصادرة عن النموذج تحمل بيانات وصفية C2PA للكشف عن المحتوى المولّد بالذكاء الاصطناعي.

في المحصلة، يُعدّ إصدار ChatGPT Images 2.0 علامة فارقة في مسيرة الذكاء الاصطناعي التوليدي، خاصة على صعيد التطبيقات المهنية التي تشترط الدقة في التفاصيل والنصوص. والسؤال الذي يبقى مطروحاً على طاولة النقاش: هل ستظل الأداة الإبداعية بيد الإنسان، أم ستُصبح الآلة هي المنتج الأساسي للمحتوى البصري الجاهز للنشر مباشرة؟

المصدر الأصلي
TechCrunch
قراءة المقال الأصلي ↗
اقرأ أيضًا

المزيد من ذكاء اصطناعي