شركة OpenAGI تخرج من السرية بوكيل ذكاء اصطناعي ينافس كبرى الشركات
أطلقت شركة ناشئة أسسها باحثون من معهد ماساتشوستس للتكنولوجيا وجامعة كارنيجي ميلون وجامعة إلينوي ما تدّعي أنه أكثر وكلاء الذكاء الاصطناعي قدرة على استخدام الحاسوب حتى الآن، متفوقاً على نماذج من OpenAI وAnthropic وGoogle في معيار قياسي رئيسي.
أعلنت مؤسسة OpenAGI هذا الصباح عن إطلاق Lux، وهو نموذج أساسي مصمم للتحكم في أجهزة الكمبيوتر بشكل مستقل من خلال تفسير لقطات الشاشة وتنفيذ الإجراءات عبر تطبيقات سطح المكتب. ووفقاً للشركة، يحقق Lux معدل نجاح يبلغ 83.6% على معيار Online-Mind2Web، وهو اختبار يتضمن أكثر من 300 مهمة واقعية لاستخدام الحاسوب وأصبح المعيار الأساسي في الصناعة لتقييم وكلاء الذكاء الاصطناعي.
إذا كانت هذه الأرقام دقيقة، فإنها تمثل قفزة كبيرة مقارنة باللاعبين الراسخين. على نفس المعيار، يسجل Gemini CUA من Google نسبة 69.0%، ويصل Operator من OpenAI إلى 61.3%، بينما يحقق Claude Sonnet 4 من Anthropic نسبة 61.0%.
نهج مختلف في التدريب
تتعلم معظم نماذج اللغة الكبيرة من خلال التنبؤ بالكلمة التالية في مجموعات نصية ضخمة، وهو نهج مُحسَّن لتوليد نصوص متماسكة وليس لاتخاذ إجراءات في البيئات الرسومية. تدّعي OpenAGI أن Lux يتبع مساراً مختلفاً جذرياً.
تستخدم الشركة ما تسميه “التدريب المسبق النشط للوكلاء” (Agentic Active Pre-training)، حيث يُدرَّب النموذج على لقطات شاشة الكمبيوتر مقترنة بتسلسلات الإجراءات. بدلاً من تعلم إنتاج النصوص، يتعلم Lux تفسير الواجهات المرئية وتحديد النقرات وضغطات المفاتيح وخطوات التنقل اللازمة لإنجاز هدف معين.
ووفقاً للرئيس التنفيذي زينغي تشين، يُنشئ هذا حلقة تحسين ذاتي: يستكشف النموذج بيئات الكمبيوتر، ويولّد معرفة جديدة من خلال هذا الاستكشاف، ثم يُغذي هذه المعرفة مرة أخرى في التدريب. هذه المنهجية، إن حققت ما تَعِد به، قد تفسر كيف تمكن فريق أصغر من تحقيق نتائج عجزت عنها منظمات أكبر.
ما وراء المتصفح
أحد الفروق البارزة هو نطاق العمل. تركز معظم وكلاء استخدام الحاسوب المتاحة تجارياً، بما في ذلك الإصدارات المبكرة من Claude Computer Use من Anthropic، بشكل أساسي على المهام المستندة إلى المتصفح. أما Lux، وفقاً لـ OpenAGI، فيمكنه التحكم في التطبيقات عبر نظام تشغيل سطح المكتب بالكامل: جداول البيانات في Excel، والاتصالات في Slack، وأعمال التصميم في منتجات Adobe، وتحرير الأكواد في بيئات التطوير.
تدّعي الشركة أيضاً مزايا كفاءة كبيرة: يعمل Lux بتكلفة تقارب عُشر تكلفة المنافسين لكل رمز، ويُكمل الإجراءات في حوالي ثانية واحدة لكل خطوة مقابل ثلاث ثوانٍ لـ Operator من OpenAI.
تُصدر OpenAGI حزمة أدوات تطوير (SDK) إلى جانب النموذج، وتعمل مع Intel لتحسين Lux للأجهزة الطرفية، مما سيتيح تشغيل النموذج محلياً بدلاً من الحاجة إلى بنية تحتية سحابية.
اعتبارات السلامة
تطرح وكلاء استخدام الحاسوب تحديات أمان لا تظهر مع روبوتات الدردشة التقليدية. فالذكاء الاصطناعي القادر على النقر على الأزرار وإدخال النصوص والتنقل بين التطبيقات قد يتسبب في أضرار حقيقية إذا أُسيء توجيهه، كتحويل الأموال أو حذف الملفات أو كشف معلومات حساسة.
تقول OpenAGI إنها بنت آليات أمان مباشرة في Lux. عندما يواجه النموذج طلبات تنتهك سياسات السلامة الخاصة به، يرفض المتابعة ويشرح السبب. في مثال قدمته الشركة، عندما طُلب منه نسخ تفاصيل مصرفية إلى مستند جديد، حدد Lux الطلب على أنه يتضمن معلومات حساسة ورفض تنفيذه.
ما لم يُثبت بعد
تجدر الإشارة إلى أن نتائج المعايير هذه مُبلَّغ عنها ذاتياً ولم تُتحقق منها جهة مستقلة. فقد شهدت صناعة الذكاء الاصطناعي الكثير من الادعاءات المبهرة من شركات ناشئة لم تصمد أمام التدقيق. يُعد Online-Mind2Web معياراً صارماً، لكن الأداء في الاختبارات الموحدة لا يُترجم دائماً إلى موثوقية في العالم الحقيقي.
تبقى أيضاً تساؤلات حول الحالات الحدية وأنماط الفشل وكيفية تعامل Lux مع التعليمات الغامضة أو حالات التطبيقات غير المتوقعة. فالفجوة بين ظروف المعايير المضبوطة وبيئات الحوسبة الفوضوية في العالم الحقيقي قد تكون كبيرة.
ومع ذلك، إذا صمدت ادعاءات OpenAGI، فإن Lux يمثل خطوة ذات مغزى إلى الأمام لوكلاء استخدام الحاسوب، وإشارة إلى أن الفرق الصغيرة المركزة يمكنها منافسة الشركات الممولة جيداً في هذه الفئة الناشئة.