أوبن إي آي تُطلق ثلاثة نماذج صوتية متطورة في واجهتها البرمجية الفورية

أطلقت أوبن إي آي نماذج GPT-Realtime-2 وTranslate وWhisper ضمن واجهتها البرمجية الفورية، لتنقل الصوت من الردود البسيطة إلى محادثات تستدل وتترجم وتُدوّن في الوقت الحقيقي.

تحرير

ألمعي · هيئة التحرير

النشر

٨ مايو ٢٠٢٦

المصدر

TechCrunch ↗

القراءات

الوقت

قراءة دقيقتين

في السابع من مايو 2026، أعلنت شركة أوبن إي آي عن إطلاق ثلاثة نماذج صوتية متطورة ضمن واجهتها البرمجية الفورية، في خطوة تُعيد رسم ملامح التفاعل الصوتي بين الإنسان والذكاء الاصطناعي. تأتي هذه النماذج لتُوسّع حدود ما يمكن للتطبيقات الصوتية إنجازه، منتقلةً بها من الردود الآلية البسيطة إلى محادثات فعلية قادرة على التفكير والتصرف.

النموذج الأول: قدرات GPT-5 في صوت حقيقي

أول هذه النماذج هو GPT-Realtime-2، وهو نموذج صوتي يحمل قدرات الاستدلال ذاتها الموجودة في جيل GPT-5. ما يميّزه جوهرياً هو قدرته على متابعة سياق المحادثة الممتدة وفهم الطلبات المعقدة والتصرف بناءً عليها في الوقت ذاته، بدلاً من الاكتفاء بالإجابة على الأسئلة المنعزلة. تُسعَّر هذه الخدمة بحسب الرموز المميزة بواقع 32 دولاراً لكل مليون رمز صوتي مدخلاً، و64 دولاراً لكل مليون رمز مخرجاً.

النموذج الثاني: ترجمة فورية لسبعين لغة

أما النموذج الثاني فهو GPT-Realtime-Translate، المخصص للترجمة الفورية، الذي يدعم أكثر من سبعين لغة كمدخلات وثلاث عشرة لغة كمخرجات. يُحافظ النموذج على وتيرة الحديث الطبيعية دون انقطاع أو تأخر، مما يجعله أداةً واعدة للمؤتمرات الدولية والتطبيقات التعليمية متعددة اللغات وخدمات الترجمة الاحترافية. يُسعَّر بالدقيقة بمعدل 0.034 دولار لكل دقيقة، وهو نظام يُتيح للمطورين التحكم في التكاليف بحسب حجم الاستخدام.

النموذج الثالث: تحويل الكلام إلى نص في لحظته

والثالث هو GPT-Realtime-Whisper، نموذج تحويل الكلام إلى نص في الوقت الفعلي، الذي ينتج نصاً مكتوباً بالتزامن مع المحادثة الجارية. تنفتح أمامه تطبيقات التوثيق التلقائي وإمكانية الوصول للأشخاص ذوي الإعاقة السمعية والصحافة والمقابلات والاجتماعات المؤسسية. سعره 0.017 دولار لكل دقيقة.

تحوّل فلسفي في الواجهات الصوتية

وصفت أوبن إي آي هذه النماذج مجتمعةً بأنها تنقل الصوت الفوري من نمط الأوامر والردود البسيطة إلى واجهات تستطيع فعلاً إنجاز الأعمال: تستمع وتستدل وتترجم وتُدوّن وتتخذ الإجراء أثناء انكشاف المحادثة. هذه الصياغة تُلخّص التحول الفلسفي الذي تسعى إليه الشركة، الانتقال من الأداة التفاعلية إلى الشريك الحواري الفاعل.

تطبيقات عملية في قطاعات متعددة

تتمحور الاستخدامات الأولية المُعلن عنها حول خدمة العملاء الصوتية، إذ يمكن توظيف هذه النماذج لتقديم دعم صوتي آلي يتجاوز حدود قوائم الخيارات المسجلة التقليدية. غير أن أوبن إي آي تُشير إلى إمكانيات أوسع تشمل التعليم والإعلام والفعاليات ومنصات المحتوى الإبداعي.

على الصعيد التعليمي، يمكن بناء أنظمة تُقدّم شروحاً صوتية بلغات متعددة في آنٍ واحد، أو أدوات لتدريب المتحدثين العامة وتحليل الأداء الشفهي. وفي مجال الإعلام، يمكن أتمتة تفريغ المقابلات والترجمة الفورية للبث المباشر.

ضمانات أمنية مُدمجة

لم تُهمل أوبن إي آي الجانب الأمني في هذا الإطلاق؛ إذ أعلنت عن ضمانات تقنية مُدمجة تُراقب المحتوى وتوقف المحادثات التي تنتهك سياسات الاستخدام المقبول. يُعالج هذا الإجراء المخاوف المتعلقة بتوظيف هذه الأدوات في الحملات الصوتية الآلية أو عمليات الاحتيال الهاتفي المنتشرة.

المشهد التنافسي

يأتي هذا الإطلاق في سياق منافسة محتدمة بين كبرى شركات الذكاء الاصطناعي للاستحواذ على سوق الواجهات الصوتية. مع تقلص الهوة التقنية بين الأنظمة الآلية والمحاورين البشريين، تتعالى التوقعات بأن تُحدث هذه الأدوات نقلة نوعية في كيفية إدارة الشركات لتواصلها مع عملائها، وكيفية تعامل الأفراد مع المعلومات والخدمات الرقمية يومياً.

تتوفر النماذج الثلاثة الجديدة حالياً للمطورين المسجلين لدى أوبن إي آي عبر واجهة البرمجة الفورية، ويمكن اختبارها أيضاً في بيئة التجريب التفاعلية على منصة الشركة.

المصدر الأصلي

TechCrunch

قراءة المقال الأصلي ↗

اقرأ أيضًا

طلب بسيط يخترق وكيل الذكاء الاصطناعي لميتا ويكشف ثغرات أمن المساعدين الذكيين

مهاجمون استغلوا وكيل دعم العملاء الذكي في ميتا لتغيير عناوين البريد الإلكتروني لحسابات إنستغرام بطلب مباشر، كاشفين عن ثغرات بنيوية في تصميم عوامل الذكاء الاصطناعي المكلّفة بعمليات حساسة.

MIT Technology Review

تصوير فني لعقل بشري يتشابك مع أدوات ذكاء اصطناعي

هل تسرق روبوتات الدردشة الذكية قدرتنا على التفكير والتركيز؟

عالمة نفس من UC Irvine تُطلق تحذيرات من الإسناد المعرفي المفرط لأدوات الذكاء الاصطناعي، مستندةً إلى بيانات تُظهر تراجع متوسط فترة التركيز من دقيقتين ونصف في 2003 إلى 47 ثانية فقط بحلول 2020.

MIT Technology Review

30 مليار دولار لبناء مراكز بيانات الذكاء الاصطناعي في الهند بطاقة 5 جيجاواط

شركة AirTrunk الأسترالية تُعلن التزامًا بـ30 مليار دولار لإنشاء 5 جيجاواط من مراكز البيانات فائقة الحجم في الهند بحلول 2030، ضمن موجة استثمارية عالمية تُرسي الهند مركزًا للذكاء الاصطناعي.

TechCrunch

المزيد من ذكاء اصطناعي

طلب بسيط يخترق وكيل الذكاء الاصطناعي لميتا ويكشف ثغرات أمن المساعدين الذكيين

هل تسرق روبوتات الدردشة الذكية قدرتنا على التفكير والتركيز؟

30 مليار دولار لبناء مراكز بيانات الذكاء الاصطناعي في الهند بطاقة 5 جيجاواط