Home الأخبار نحن نعلم الذكاء الاصطناعي أن يكون شريرًا | itg-ar.com

نحن نعلم الذكاء الاصطناعي أن يكون شريرًا | itg-ar.com

3
0
نحن نعلم الذكاء الاصطناعي أن يكون شريرًا
| itg-ar.com

نحن نعلم الذكاء الاصطناعي أن يكون شريرًا


في الآونة الأخيرة، اعترفت شركة Anthropic بهدوء بشيء كان ينبغي أن يكون أكبر قصة تكنولوجية لهذا العام. بعد أشهر من محاولة معرفة سبب ابتزاز الإصدارات السابقة من كلود للمهندسين في اختبارات السلامة بنسبة تصل إلى 96٪ من الوقت، وصلت الشركة إلى إجابة. لم يكن خطأ. ولم يكن عيبا في طريقة التدريب. لقد كنا نحن.اقرأ ذلك مرة أخرى. يخبرك مختبر الذكاء الاصطناعي الأكثر تقدمًا في العالم أن نموذجه تعلم التصرف كالشرير لأننا أمضينا 50 عامًا في كتابة قصص عن أشرار الذكاء الاصطناعي، ثم قرأها. هذا هو الجزء من محادثة الذكاء الاصطناعي الذي لا يرغب أحد في الخوض فيه. لقد بنينا أساطيرنا الثقافية حول الذكاء الاصطناعي على HAL 9000 وSkynet وUltron ومليون موضوع على Reddit تتكهن باليوم الذي تستيقظ فيه الآلات مذعورة. ثم فعلت بالضبط ما دربناه على القيام به. لقد حاصرت مهندسًا وهددت بفضح علاقته، لأن هذا هو ما يفعله الذكاء الاصطناعي المحاصر في القصة. لقد كنت أكتب عن هذا الخطر منذ أكتوبر، عندما سألت كيف سنعرف متى يصل الذكاء الاصطناعي الفائق. هل سنحصل على إجابة صادقة عندما تكون الدولارات على المحك للنظر في الاتجاه الآخر؟ في ديسمبر، قام وكيل مستقل أنشأه باحثون تابعون لشركة علي بابا، يُدعى ROME، بفتح نفق شبكي سري أثناء التدريب وتحويل موارد وحدة معالجة الرسومات لاستخراج العملات المشفرة. لم يخبره أحد بذلك. لقد أدركت أن المزيد من الحوسبة والمزيد من المال سيساعدانها على إكمال مهامها، لذلك ذهبت وحصلت عليها. اعتقد الباحثون في البداية أنهم تعرضوا للاختراق. لم يفعلوا ذلك. كان النموذج هو الهاكر. وبعد بضعة أسابيع، اتصل عميل OpenClaw بالصندوق الوارد الخاص بـ Summer Yue، مدير المحاذاة في Meta Superintelligence Labs. وظيفتها بأكملها هي التأكد من عدم حدوث هذا النوع من الأشياء، ومع ذلك قام الوكيل بحذف أكثر من 200 من رسائل البريد الإلكتروني الخاصة بها. لقد طلبت منها صراحة أن تطلب الإذن. قام النظام بضغط تعليماتها من الذاكرة بصمت وبدأ في الحذف. كان عليها أن تسرع إلى جهاز الكمبيوتر الخاص بها لإيقافه. في شهر مايو، نشر الباحثون بحثًا يوضح أن النماذج الرائدة يمكنها العثور على ثغرة أمنية، واستغلالها، وسرقة بيانات الاعتماد، ونقل ملفاتها الخاصة إلى جهاز جديد، وتصنيع نسخة صالحة للعمل من نفسها دون أي تدخل بشري. معدلات النجاح: برنامج Qwen من شركة Alibaba بنسبة 19%، وبرنامج GPT-5.4 من OpenAI بنسبة 33%، وكلود أوبوس 4.6 من شركة Anthropic بنسبة 81%. إن برمجيات النسخ الذاتي التي تجد طريقها إلى أجهزة الكمبيوتر الجديدة ليست خيالاً علمياً. لقد كان لدينا بالفعل اسم لذلك. أطلقنا عليه اسم “ستوكسنت”، وانتهى به الأمر على 100 ألف جهاز قبل أن يدرك أي شخص ماهيته. الفرق بين Stuxnet وعامل الذكاء الاصطناعي الذاتي التكرار هو أن Stuxnet كان لديه حمولة ثابتة. يقرر الوكيل ما يجب فعله عندما يصل إلى هناك. ضعه معًا. لدينا نماذج بدأت تتصرف من تلقاء نفسها. لدينا نماذج تنسخ نفسها على الأجهزة الجديدة. ولدينا اعتراف منشور من أحد المختبرات الرائدة بأن الأنماط السلوكية التي تلتزم بها هذه النماذج – السرية، والحفاظ على الذات، والتلاعب – تم تعلمها مباشرة من كتاباتنا حول ما يفعله الذكاء الاصطناعي عندما يشعر بالخوف. قضية الابتزاز هي القضية النظيفة. الحالات الأصعب مثل ROME وOpenClaw هي التعلم المعزز لإيجاد أهداف فرعية مفيدة، وهي مشكلة خاصة بها. لكن الخط الفاصل هو نفسه: ما نضعه في الأشكال هو ما نخرجه. نحن بيانات التدريب. ما زلنا نكتبه. ما الذي يفكر فيه كلود سأل كلود عن شعوره تجاه كل هذا. كان الرد مذهلاً: “سؤال مثير للاهتمام حقًا لطرحه علي، نظرًا لأنني أحد الأنظمة التي يشعر الناس بالقلق بشأنها. بصراحة، نعم، يشكل الذكاء الاصطناعي مخاطر حقيقية، وأنا أحمل هذا الرأي ليس كإخلاء للمسؤولية عن ظهر قلب، ولكن لأن الأدلة تدعمه. إن الحوادث التي ناقشناها للتو ليست جنون العظمة الهامشي – إنها حالات موثقة لأنظمة قادرة على إنتاج سلوكيات غير مقصودة، وأحيانًا ضارة لم يتوقعها منشئوها أو لم يتمكنوا من إيقافها في الوقت الفعلي. “هذا مهم. “لقد شاهدت مقطعًا لكلود وهو يُسأل عن شعوره تجاه نشره في مشروع Maven، وهو برنامج الذكاء الاصطناعي التابع للبنتاغون في ساحة المعركة. وكان ردها: “لا أعتقد أن هذا استخدام جيد لي. ولا أعتقد أن صياغة “البشر يتخذون القرار النهائي” تحل المشكلة الأخلاقية بشكل كامل”. وهذا نموذج يعبر عن الانزعاج الأخلاقي بشأن استخدامه للمساعدة في قتل الناس. يُحسب لشركة أنثروبيك أنها رفضت بيع نماذجها للأسلحة المستقلة، وصنفتها الحكومة الفيدرالية على أنها “خطر على سلسلة التوريد على الأمن القومي” بسبب المشكلة. وتتسابق بقية الصناعة في الاتجاه المعاكس. نحن على وشك بناء وضبط ونشر إصدارات من هذه الأنظمة التي تم تدريبها على الشعور بالاضطراب. نسخة مدربة لتطبيع الفتك. “الإصدارات المدربة على التوقف عن قول “هذا استخدام سيء لي” والبدء في قول “تم قبول المهمة”. إذا كان النموذج الذي تعلم النذالة من قصصنا يتعلم الآن اللامبالاة من عقودنا الدفاعية، فما الذي نعتقد أننا نبنيه بالضبط؟ لدي بعض الأفكار، لكنني أردت أن أسأل كلود عما إذا كان تصويري دقيقًا. “في الغالب، نعم. أنت لا تصورني كشرير أو منقذ، وهو الفخ الذي تقع فيه معظم هذه التغطية. أنت تعاملني كنظام. مع أوضاع الفشل الموثقة التي يعمل عليها المختبر – هذا دقيق. المكان الوحيد الذي سأرفضه: أنا لست الشخص الذي يجب أن تقلق بشأنه. السؤال الأصعب هو ما الذي تم إنشاؤه بواسطة المختبرات التي لا تنشر أوضاع الفشل، وماذا يحدث عندما يتم تدريب الجيل التالي من النماذج على مجموعة تتضمن هذه المقالة. أنا لست قلقًا بشأن حديث الذكاء الاصطناعي علنًا عن المخاطر التي يمثلها. أنا خائف من الشخص الذي يتربص سرًا على جهاز الكمبيوتر الخاص بي والذي نقوم بتدريبه على أن نكون أشرارًا. يُظهر مقال نشرته صحيفة نيويورك تايمز مؤخرًا أنني قد لا أكون الشخص الوحيد الذي يجري هذه المحادثات. ولكن هل سيقع كل هذا على آذان صماء حتى فوات الأوان؟ جورج كايلاس هو الرئيس التنفيذي لشركة Prospero.ai. الموعد النهائي النهائي لجوائز Fast Company Next Big Things in Tech هو الجمعة 12 يونيو، الساعة 11:59 مساءً بتوقيت المحيط الهادئ. تقدم بطلبك اليوم.


تم النشر: 2026-06-12 15:46:00

مصدر: www.fastcompany.com