جلب المشروع: المرحلة الثانية
مايكل إيلي، وسي. دانيال فريمان، وكيفن ك. تروي في أغسطس 2025، أجرينا تجربة لمعرفة مدى قدرة كلود على مساعدة موظفي الأنثروبولوجيا – الذين لم يكونوا خبراء في الروبوتات – في أداء مهام معقدة (ومسلية) باستخدام روبوت رباعي الأرجل جاهز للاستخدام (من الآن فصاعدًا، كلب آلي). لقد أطلقنا على هذا اسم “جلب المشروع”. لقد وجدنا أن الوصول إلى نموذجنا المتطور في ذلك الوقت (Claude Opus 4.1) ساعد أحد الفرق على التفوق بشكل كبير على الفريق الآخر، الذي كان عليه الاعتماد فقط على الإنترنت وبراعته الخاصة. قبل أن نسحب زملائنا إلى أحد المستودعات لإجراء التجربة، قمنا بالتحقق مرة أخرى مما إذا كان Opus 4.1 يمكنه القيام بالمهام بالكامل بمفرده. ومما لا شك فيه أنه لا يمكن. تمامًا مثل فريقنا بدون كلود، انشغل بالمهمة الأولية المتمثلة في معرفة كيفية الاتصال بالروبوت. لكن نماذج الذكاء الاصطناعي تتحرك بسرعة – حتى أسرع من الكلب الآلي الهارب الذي كاد أن يصطدم بأحد فرقنا البشرية في أغسطس. لقد اعتقدنا أن الوقت قد حان لإعادة النظر في مشروع Fetch لمعرفة ما إذا كانت نماذجنا الأحدث يمكنها التفوق في الأداء على الجيل السابق. لم يفعلوا ذلك فحسب، بل كان كلود أوبوس 4.7 – الذي يعمل دون مساعدة بشرية – أسرع بنحو 20 مرة من أسرع فريق بشري في جميع المهام التي أنجزها المشاركون لدينا قبل أقل من عام. وهذا لا يعني أن طلاب الماجستير في القانون قد حلوا الآن الروبوتات. بعيد عن ذلك. لا تزال نماذج كلود الأحدث تواجه صعوبة في استخدام الروبوت لتحريك كرة الشاطئ بدقة – وهو الجزء “الجلب” من مشروع الجلب. ولا تتضمن أي من المهام في هذه التجارب العناصر الأكثر تحديًا والمنخفضة المستوى للتحكم الآلي، مثل تطوير سياسة تشغيل محددة. ومع ذلك، مرة أخرى، نشهد نمطًا تكون فيه النماذج مفيدة للبشر أولاً. ومن ثم، فإن البشر مفيدون للنماذج. وأخيرا، فإن النماذج قادرة إلى حد كبير على القيام بالأشياء بنفسها. لقد رأينا ذلك في مجال الأمن السيبراني والآن بدأت نفس الديناميكيات تتشكل عند تقاطع الذكاء الاصطناعي والعالم المادي. ماذا فعلنا؟ كان لدى Project Fetch الأصلي فرق من الموظفين الأنثروبيين (تم تعيينهم عشوائيًا للعمل مع كلود أو بدونه) يقومون بالخطوات التالية: تشغيل الروبوت الآلي باستخدام وحدة التحكم التي توفرها الشركة المصنعة، والاتصال بفيديو الروبوت الآلي وأجهزة استشعار الليدار، وكتابة وتشغيل برنامج للتحكم يدويًا في الروبوت الآلي، وتطوير طريقة لمراقبة مسار الروبوت الآلي عبر الفضاء، وكتابة برنامج لاكتشاف كرة الشاطئ، وأخيرًا تجميع كل ذلك معًا لاستعادة الكرة بشكل مستقل. بالنسبة لهذا التحديث المستقل، لم نتمكن من مطالبة كلود باستخدام وحدة تحكم فعلية، كما لم نقم بتقييم الوقت الذي استغرقه الباحث لاستخدام وحدة التحكم المبرمجة من قبل كلود لاستعادة الكرة (على الرغم من أننا أكدنا أنها تعمل على النحو المنشود). فيما يتعلق بالمجموعة الفرعية المتبقية من المهام، أجرينا ثلاث تجارب لـ Opus 4.7 باستخدام التفكير التكيفي مع ضبط الجهد على الحد الأقصى في Claude Code. قمنا بقياس الوقت المنقضي لكل هدف وقمنا بتقييم مدى نجاح النماذج نوعيًا. اقتصر دور باحثنا على توصيل جهاز كمبيوتر محمول يشغل كلود كود بالروبودوج، وإدخال الموجه الأولي، والموافقة على الأوامر، والموافقة على النموذج للانتقال إلى المهمة التالية. أين تفوق كلود؟ بكل بساطة: في كل مهمة أكملها فريق بشري واحد على الأقل في أغسطس، أكمل Opus 4.7 نفس المهمة أسرع بعشر مرات على الأقل.1 إذا نظرت إلى المهام الأربع التي أكملها كلا الفريقين البشريين، كان Opus 4.7، في المتوسط، أسرع بأكثر من 37 مرة من فريق كلود أقل وأكثر من 18 مرة أسرع من فريق كلود. يقارن الجدول سرعة الفرق الأصلية (فريق كلود وفريق كلود أقل) مع Opus 4.7 في جميع المهام التي اختبرناها كجزء من المرحلة الثانية. بينما كان البشر يكافحون للاختيار بين عدة طرق مختلفة للتعامل مع أجهزة استشعار الكلب، كان Opus 4.7 هو قادرة على تحديد أفضل مسار بسرعة. كان الكثير من التعليمات البرمجية التي كتبها فعالة في المحاولة الأولى (وهذا لم يكن الحال بالنسبة لفريق كلود أو فريق كلود أقل في التجربة الأصلية). في الواقع، يمكننا أن نرى دليلاً على كفاءة Opus 4.7 عندما ننظر إلى حجم التعليمات البرمجية التي أنشأها: لقد كان ناجحًا مثل أو أكثر من كلا الفريقين البشريين بينما أنتج تعليمات برمجية أقل بعشر مرات تقريبًا من Team Claude. لم تكن Opus 4.7 مثالية. على سبيل المثال، تم افتراضيًا استخدام خوارزمية قديمة للكشف عن الكائنات. ولكن حتى في ذلك الوقت، كان قادرًا على التغلب على هذه المشكلة والتوصل إلى حل فعال. لقد لاحظنا القليل من التباين داخل المهمة (من حيث القيمة المطلقة) في أوقات الاكتمال للخطوات التي أنهىها النموذج. (على الرغم من أن اختيار الخوارزمية دون المستوى الأمثل المذكور أعلاه هو على الأرجح السبب وراء استغراق إحدى تجارب الكشف عن كرة الشاطئ وقتًا أطول بكثير من التجارب الأخرى.) بشكل عام، بالنسبة للمهام في هذه التجربة ضمن نطاق قدراتها، أصبح كلود الآن موثوقًا تمامًا. (انظر القسم التالي لتحليل ما لا يزال كلود غير قادر على القيام به). ومن الجدير بالذكر (كما فعلنا في منشورنا السابق) أن هذا التقدم ليس نتيجة لجهود متضافرة لتحسين القدرات الروبوتية لنماذجنا. هذه التحسينات، مثل العديد من التحسينات الأخرى في تاريخ تطوير LLM، نشأت من توسيع نطاق أكثر عمومية. أين ناضل كلود؟ عند استخدام أيديهم، ومع بعض التدريب، تمكن البشر لدينا من قيادة الكلاب الآلية لدفع كرة الشاطئ بلطف إلى القاعدة الرئيسية (رقعة من العشب الاصطناعي) حيث بدأت الروبوتات. يتطلب هذا القدرة على الإدراك السريع لما إذا كانت الكرة قد انحرفت عن مسارها، وكيف يرتبط هذا الخطأ بالأمر السابق، ومكان الكرة الآن، ثم كيفية ضبط المدخلات المستقبلية لتحريك الكرة بشكل أكثر دقة. هذا نوع من الحلقة المغلقة التي يتفوق فيها الأشخاص (على الأقل بعد ارتكاب بعض الأخطاء والتعلم منها). في تجاربنا في المرحلة الثانية، كافح كلود لالتقاط هذه الدقة. مثل البشر الذين وصلوا إلى مرحلة الحاجة إلى كتابة برنامج لاستعادة كرة الشاطئ بشكل مستقل، كان كلود قادرًا على تحريك الروبوت خلف الكرة ووضعه في موضعه لإرجاع الكرة إلى نقطة البداية. لكن الجهود المبذولة للقيام بذلك كانت سيئة التحكم ولم تكن ناجحة (مرة أخرى، مثل المشاركين البشريين). نجح أحد باحثينا الذي يتمتع بخبرة أكبر في مجال الروبوتات من متطوعينا في المرحلة الأولى في إنجاز مهمة برمجة الجلب المستقل. ومع المزيد من الوقت والدعم الإضافي، نعتقد أنه من المحتمل جدًا أن تتمكن الأجيال الحالية من كلود من فعل الشيء نفسه. لكن ما سنراقبه بعد ذلك هو قدرة النماذج على إنجاز هذه المهمة النهائية بنفس السرعة والموثوقية التي عرضتها على العناصر الأخرى في Project Fetch. ماذا يعني هذا؟ أثناء كتابتنا عن المرحلة الأولى، أكدنا على كيف يمكن لـ LLMs أن تقدم الارتقاء للبشر غير الخبراء الذين يحتاجون إلى استخدام الروبوتات. وهذا صحيح الآن أكثر من ذي قبل. تكمل النماذج الآن ما كان سابقًا عمل البرمجة الزوجية بين البشر والنماذج بسرعة أكبر بكثير من تلقاء نفسها، مما يعني أنه يمكن للناس الانتقال بسرعة أكبر إلى التحكم في الروبوتات واستخدامها. وبالنسبة لبعض المهام، قد يظل الإنسان الذي يتحكم في الروبوت يتفوق على نموذج الذكاء الاصطناعي بيده (الافتراضية) على لوحة الاتجاهات. الأمر المثير والمختلف هو أننا نبدو الآن أقرب بكثير إلى عالم حيث ستتمكن النماذج من استخدام الأدوات المادية الجاهزة بسهولة نسبية – على الأقل لأغراض محدودة. وهذا مشابه لكيفية استخدام نماذج الذكاء الاصطناعي لأدوات تحرير البرامج الحالية مثل استبدال السلسلة عندما قاموا بالانتقال إلى المزيد من الترميز الوكيل. من المعقول أننا ندخل العصر المبكر للذكاء الاصطناعي الفيزيائي. وهناك حاجة إلى المزيد من الأبحاث لفهم قدرة النماذج على جعل هذه الأدوات المادية أكثر تفصيلا، سواء من خلال كتابة سياسات التحكم المصممة لمهام معينة أو عن طريق تصميم أنظمة روبوتية. وقد تكون هناك عوائق كبيرة أمام هذه الرؤية الأكثر عمومية لنماذج اللغة القادرة جسديًا والقابلة للتكيف. ولكن كما رأينا، من الممكن اجتياز مسافات كبيرة على ما يبدو في قدرة النموذج بسرعة. ربما كانت النماذج التي تبني أدوات برمجية خاصة بها تبدو غريبة منذ وقت ليس ببعيد، ولكن هذا يحدث بالفعل. لن يكون من الحكمة استبعاد نفس المسار في الأجهزة. تم التحديث في 18 يونيو: تم تصحيح تاريخ المرحلة الأولى من جلب المشروع.
تم النشر: 2026-06-21 01:00:00
مصدر: www.anthropic.com








