كشفت دراسة حديثة أجراها فريق بحثي بقيادة العالم سوكيتو باتيل أن نماذج الذكاء الاصطناعي اللغوية المتقدمة، بما في ذلك GPT وClaude وGemini، تحقق نتائج قوية في اختبارات الانتباه القصيرة، لكنها تواجه صعوبة كبيرة في الحفاظ على دقة الأداء عندما تصبح المهام أطول وأكثر تعقيداً.
واعتمد الباحثون على اختبار «ستروب» الشهير، وهو أحد أكثر الاختبارات استخداماً في علم النفس لقياس التركيز والتحكم الذاتي والقدرة على مقاومة المشتتات. ويقوم الاختبار على عرض كلمات تمثل ألواناً مختلفة، بينما يُطلب من المشارك تحديد لون الكتابة بدلاً من قراءة الكلمة نفسها، وهي مهمة تبدو بسيطة لكنها تتطلب قدراً عالياً من الانتباه المستمر.
تراجع حاد مع زيادة طول المهمة
أظهرت النتائج أن نموذج GPT-4o حقق دقة بلغت 91% عند التعامل مع قوائم قصيرة تضم خمس كلمات فقط. لكن الأداء تراجع بشكل ملحوظ مع زيادة عدد الكلمات، حيث انخفضت الدقة إلى 57% في القوائم المكونة من 10 كلمات، ثم إلى 15% فقط عند الوصول إلى 40 كلمة.
أما نموذج Claude 3.5 Sonnet فحافظ على استقرار أفضل نسبياً في المراحل الأولى، إلا أن دقته هبطت أيضاً إلى 24% عند اختبار القوائم الأطول. وسُجل نمط مشابه لدى نماذج أخرى مثل GPT-5 وClaude Opus 4.1 وGemini 2.5.
لماذا يتفوق الإنسان؟
لاحظ الباحثون أن النماذج واجهت صعوبة أكبر عند مزج كلمات متطابقة مع ألوانها وأخرى متعارضة معها، إذ تراجعت الدقة في بعض الحالات إلى مستويات شبه معدومة. وخلصت الدراسة إلى أن الذكاء الاصطناعي يميل مع مرور الوقت إلى تجاهل التعليمات الأساسية والعودة إلى السلوك الأكثر ترسخاً لديه، وهو قراءة النصوص بدلاً من التركيز على لونها.
في المقابل، يتمكن معظم البشر من الحفاظ على مستوى ثابت من الانتباه حتى خلال الاختبارات الطويلة، رغم أن قراءة الكلمات تُعد استجابة تلقائية أسرع من تحديد الألوان. ويرى الباحثون أن هذه النتائج تسلط الضوء على الفجوة الحالية بين آليات التفكير البشري وطريقة عمل النماذج اللغوية الحديثة، خاصة في المهام التي تتطلب تركيزاً مستمراً ومقاومة للمشتتات.