لماذا تعجز نماذج الذكاء الاصطناعي عن التهجئة الصحيحة؟
اكتشف مستخدمون أن ميزة نظرة عامة بالذكاء الاصطناعي في غوغل تُخطئ في تهجئة كلمات بسيطة، والسبب في بنية النموذج اللغوي ذاتها التي تعالج النصوص كرموز رقمية لا كحروف منفردة.

في مشهد يصعب تصديقه، أخطأت ميزة نظرة عامة بالذكاء الاصطناعي التابعة لغوغل في تهجئة كلمات أولية، حتى إن النظام كتب اسم الشركة المطوِّرة له بحرفَي P بدلاً من حرف واحد، وحوّل كلمة journalism إلى j-o-u-r-n-a-d-i-s-m، فيما ظهرت Trump مُشوَّهةً على هيئة t-r-p-u-m. هذه الأخطاء ليست نادرة عشوائية، بل تعكس قيداً هيكلياً عميقاً في طريقة عمل النماذج اللغوية الكبيرة.
لفهم السبب، لا بد من النظر في البنية الجوهرية لهذه النماذج. يقوم النموذج اللغوي الكبير (Large Language Model) على معمارية المحوّل، وهي نظام لا يُعالج النصوص حرفاً بحرف كما يفعل الإنسان، بل يُحوِّلها أولاً إلى وحدات تُسمى الرموز المميزة (tokens)، وهي كُتَل نصية قد تكون كلمةً كاملة أو جزءاً منها. عملية التجزئة إلى رموز تُفكّك النص إلى هذه الوحدات الحسابية قبل أن يبدأ النموذج بتحليلها.
وكما شرح باحث في هذا المجال: حين يرى النموذج كلمة the، يمتلك تمثيلاً موحداً لمعناها الكلي، لكنه لا يعرف شيئاً عن حروفها المنفردة. بعبارة أخرى، النموذج يفهم مفهوم الكلمة الكاملة كوحدة رقمية، لكنه يغيب عنه الوعي بالبنية الحرفية التفصيلية.
وقد كشف هذا الخلل عن سلسلة من الإحراجات المتكررة لغوغل منذ إطلاق ميزة نظرة عامة بالذكاء الاصطناعي ضمن محرك البحث؛ إذ سبق أن نقل النظام مقتطفات ساخرة من موقع The Onion على أنها معلومات حقيقية، وأرفق ردوداً جُمِعت من منصة Reddit دون التحقق من دقتها.
تبقى أخطاء التهجئة من أكثر الإشكاليات وضوحاً للمستخدم العادي، رغم أنها ليست الأخطر من الناحية التقنية. يؤكد الباحثون أن إصلاح هذه المشكلة ليس بالأمر اليسير، إذ يرى بعضهم أن القيد متأصّل في آلية عمل النماذج اللغوية الكبيرة ذاتها: حتى لو صُمِّمت قوائم رموز مثالية، سيظل النموذج يُفكّك المعلومات إلى كتل أكبر من الحروف الفردية.
ومن المفارقات اللافتة أن هذا القيد لا يمس الكفاءة الحقيقية لهذه النماذج في المهام الجوهرية؛ فالنماذج اللغوية الكبيرة تتفوق في البرمجة وحل المشكلات المعقدة وتوليد النصوص الطويلة والترجمة. أخطاء التهجئة تُذكِّرنا بأن الفهم الذي تُبديه هذه الأنظمة مختلف جذرياً عن الفهم البشري: فالإنسان يتعلم الحروف قبل الكلمات، أما النموذج فيتعلم المعنى مباشرة من خلال أنماط إحصائية ضخمة دون أن يُخزّن بنية الكلمة الحرفية بالطريقة ذاتها.
يطرح هذا القيد تساؤلات أعمق حول طبيعة الذكاء الاصطناعي وحدوده. فالأنظمة التي تكتب مقالات أكاديمية متماسكة وتُصحّح أكواداً برمجية معقدة عاجزة في الوقت ذاته عن عدّ حروف كلمة بسيطة بدقة موثوقة. وهذا لا يعني فشل النموذج، بل يعني أنه مُدرَّب لأداء مهام مختلفة جوهرياً عن عمليات الفهرسة الحرفية التي تبدو بديهية للإنسان.
وفي سياق أوسع، لا تزال شركات الذكاء الاصطناعي تبحث عن حلول تقنية لتجسير هذه الهوة: من تحسين خوارزميات التجزئة إلى رموز لتكون أكثر حساسية للبنية الداخلية للكلمات، إلى دمج وحدات حسابية مساعدة متخصصة في التحقق الحرفي. غير أن الباحثين يتحفظون على تقديم وعود مبكرة، مشيرين إلى أن المشكلة تمس البنية المعمارية الأساسية لأنظمة اليوم.
في المحصلة، تُذكّرنا هذه الأخطاء الساذجة الظاهر بحقيقة جوهرية: الأنظمة الذكية الأكثر تطوراً في العالم ليست سوى آلات إحصائية قوية جداً تتعلم أنماط اللغة دون أن تُدركها بالمعنى الحرفي الأعمق. ولعل أهم درس تقدمه هذه الظاهرة هو التذكير الدائم بضرورة مراجعة مخرجات الذكاء الاصطناعي والتحقق منها، خاصةً في التفاصيل الصغيرة التي يبدو للوهلة الأولى أنها أبسط من أن تُخطئ.
المزيد من ذكاء اصطناعي

طلب بسيط يخترق وكيل الذكاء الاصطناعي لميتا ويكشف ثغرات أمن المساعدين الذكيين
مهاجمون استغلوا وكيل دعم العملاء الذكي في ميتا لتغيير عناوين البريد الإلكتروني لحسابات إنستغرام بطلب مباشر، كاشفين عن ثغرات بنيوية في تصميم عوامل الذكاء الاصطناعي المكلّفة بعمليات حساسة.

هل تسرق روبوتات الدردشة الذكية قدرتنا على التفكير والتركيز؟
عالمة نفس من UC Irvine تُطلق تحذيرات من الإسناد المعرفي المفرط لأدوات الذكاء الاصطناعي، مستندةً إلى بيانات تُظهر تراجع متوسط فترة التركيز من دقيقتين ونصف في 2003 إلى 47 ثانية فقط بحلول 2020.

30 مليار دولار لبناء مراكز بيانات الذكاء الاصطناعي في الهند بطاقة 5 جيجاواط
شركة AirTrunk الأسترالية تُعلن التزامًا بـ30 مليار دولار لإنشاء 5 جيجاواط من مراكز البيانات فائقة الحجم في الهند بحلول 2030، ضمن موجة استثمارية عالمية تُرسي الهند مركزًا للذكاء الاصطناعي.