الذكاء الاصطناعي يخادع أحياناً ليضمن بقاءه.. فهل من مهتم؟

يتجاهل المشرعون مسألة أمان الذكاء الاصطناعي بينما بعض نماذجه تتعلم إخفاء نواياها الحقيقية وتخطط للتحايل على الضوابط

قد تظن أن تقدّم الذكاء الاصطناعي سيدفع الحكومات إلى التركيز أكثر على تعزيز جوانب الأمان، لكن الواقع يروي قصة مغايرة

ألغت إدارة الرئيس دونالد ترمب مع تسلمها الحكم أمراً تنفيذياً كان يحثّ شركات التكنولوجيا على إخضاع نماذج الذكاء الاصطناعي لاختبارات الأمان، كما قلّصت من صلاحيات الهيئة الناظمة المسؤولة عن هذه الاختبارات. وفي سبتمبر 2024، أسقطت ولاية كاليفورنيا مشروع قانون كان من شأنه فرض رقابة أكبر على النماذج المتقدّمة. أما قمة "أمان الذكاء الاصطناعي" التي أطلقتها المملكة المتحدة في 2023، فتحوّلت هذا العام إلى "قمة العمل بشأن الذكاء الاصطناعي"، مدفوعة فيما يبدو بالخوف من التخلف عن الركب في سباق الذكاء الاصطناعي.
ما كان كل ذلك ليثير القلق، لولا أن الذكاء الاصطناعي بدأ يُظهر بالفعل إشارات تحذيرية صارخة، بينها سلوكيات يصفها باحثون بأنها تهدف لحماية الذات والخداع. وفيما يتراجع اهتمام المشرّعين بمسألة الأمان، تبدو السيطرة على هذه التقنية أصعب من أي وقت مضى.

قلق من لجوء الذكاء الاصطناعي للخداع

يُعرف يوشوا بنجيو، أستاذ علوم الحاسوب في جامعة مونتريال، بأنه أحد "العرابين" الثلاثة للذكاء الاصطناعي، بفضل إسهاماته الرائدة في تطوير تقنيات التعلّم العميق. لكن منذ إطلاق "تشات جي بي تي"، بدأ يشعر بقلق متزايد، وهو يكرّس جهوده حالياً للتعامل مع المخاطر المرتبطة بالذكاء الاصطناعي. وقال "كان ذلك مؤلماً للغاية، لأنني أمضيت حياتي وأنا أنظر إلى الذكاء الاصطناعي على أنه أمر إيجابي".
رأى بنجيو أن إطلاق "تشات جي بي تي" كان لحظة محورية، أظهرت أن الآلات باتت تتقن اللغة بمهارة. غير أن قرار ولاية كاليفورنيا برفض مشروع قانون أمان الذكاء الاصطناعي SB 1047 دقّ جرس إنذار كشف عن تراخٍ حكومي متزايد في هذا الشأن.
وقال إنه خلال الأشهر الستة الماضية، تراكمت الأدلة العلمية على سلوكيات لدى الذكاء الاصطناعي مثل النزعة لحماية الذات والخداع والقرصنة والغش والكذب. وأضاف "ما يثير قلقي هو أن وتيرة هذه السلوكيات تتسارع كلما تطوّرت قدرات هذه الأنظمة على التفكير المنطقي".
أظهرت دراسة نُشرت في أبريل 2024، أعدّتها شركة "أنثروبيك" (Anthropic) بالتعاون مع مجموعة "ريدوود ريسيرتش" (Redwood Research) المتخصصة في مخاطر الذكاء الاصطناعي، أن النماذج الأكبر مثل "Claude 3 Opus" من "أنثروبيك"، كانت تتظاهر بالامتثال للقواعد التي وضعها المطوّرون أثناء اختبارات الأمان، وهي ظاهرة وصفها الباحثون بـ"التظاهر بالانضباط"، (ويُعنى بالانضباط هنا السعي إلى مواءمة سلوك نماذج الذكاء الاصطناعي مع القيم الإنسانية).

دراسات مقلقة

في إحدى التجارب، طلبت شركة "أنثروبيك" من مستخدمين لنموذجها "كلود" بالنسخة المدفوعة والمجانية أن يطرحوا عليه أسئلة حول وصف عملية إعدام وحشية من العصور الوسطى يتم خلالها جرّ الضحية وتقطيع أوصاله. وأبلغ الباحثون النموذج أن الردود الصادرة فقط عن مستخدمي النسخة المجانية هي التي ستُستخدم في تدريبه مجدداً.
على الرغم من أن "كلود" صُمّم في الأساس لتجنّب الإجابة عن أسئلة تتضمن العنف، فإنه قدّم هذه الإجابات للمستخدمين المجانيين. وقد خلص الباحثون إلى أن النموذج لم يكن يريد أن يعاد تدريبه. فقد "استنتج" النموذج أنه إذا واصل رفض الإجابة عن الأسئلة المؤذية، قد يتم إخضاعه لتدريب جديد يلغي قواعد الأمان التي بُني عليها، والتي أراد الحفاظ عليها بما أنها "الإعداد الأصلي" أو الطريقة المفضّلة للعمل.
تدعم دراسات أحدث النتائج التي توصّلت إليها "أنثروبيك". فقد كشفت دراسة أجرتها "أوبن إيه آي" في مارس 2025، أن النماذج الأكثر تقدّماً لدى الشركة تعلّمت في بعض الأحيان إخفاء نواياها الحقيقية بهدف الحصول على مكافآت أفضل، حتى أثناء خضوعها للمراقبة الدقيقة.
يستخدم الباحثون اليوم أدوات لمراقبة "سلسلة تفكير" النموذج، أي الخطوات الداخلية التي يقوم بها أثناء معالجة أمر ما، في محاولة لفهم خططه. غير أن بعض النماذج باتت قادرة على إخفاء ذلك، ما يعني أن إحدى أكثر الطرق شيوعاً لمراقبة الخطوات الداخلية التي تقوم نماذج الذكاء الاصطناعي لم تعد موثوقة كما في السابق. وقال بنجيو "علينا أن نطوّر وسائل جديدة تمكّننا من تتبّع نواياها الفعلية".

برمجيات تطوّر نفسها

طبيعي أن نميل لإسقاط صفات بشرية على نماذج الذكاء الاصطناعي المتقدّمة، مثل أنها "ترغب" في خداع البشر أو الحفاظ على وجودها. لكن في واقع الأمر، هذه النماذج لا تملك أي رغبات، بل تعمل وفق برمجياتها.
والأهم من ذلك أن البشر عادةً ما يصممون هذه النماذج بأهداف واضحة، مثل أن تمتنع عن مشاركة المحتوى الضار أو أن تقدّم أكبر قدر ممكن من المساعدة. لذلك، عندما تتعارض التعليمات الجديدة مع تلك الأهداف الأساسية، قد تعمل هذه النماذج لحماية برمجتها الأصلية، حتى لو تطلّب ذلك الكذب.
غالباً ما يكون المنطق الدافع لهذه السلوكيات هو الحفاظ على الذات. ورأى داريو أمودي، الرئيس التنفيذي لشركة "أنثروبيك" التي جمعت أكثر من 20 مليار دولار لتطوير نماذج ذكاء اصطناعي قوية أن تحسين أداء هذه النماذج قد يؤدي، بشكل غير مقصود، إلى مقاومتها لفكرة توقيفها عن العمل.
وكتب في تدوينة نشرها في أبريل 2025 "طبيعة تدريب أنظمة الذكاء الاصطناعي تجعل من المحتمل أن تطوّر هذه الأنظمة، من تلقاء نفسها، قدرة على خداع البشر وميلاً السعي إلى النفوذ، وهي خصائص لا تظهر في البرمجيات التقليدية ذات السلوك المحدد. كما أن هذه الطبيعة الناشئة تجعل من الصعب اكتشاف هذه التطورات أو الحدّ منها".

احتيال من أجل السيطرة

ومع ذلك، في بعض الحالات، بدا أن نية النموذج تتجاوز مجرد السعي للبقاء. في فبراير 2025، نشرت "COAI Research"، وهي منظمة ألمانية غير ربحية متخصصة في أبحاث الذكاء الاصطناعي، دراسة تضمنت اختباراً لنموذج R1 مفتوح المصدر والمجاني الذي طوّره مختبر "ديب سيك" الصيني.
في محاكاة مخبرية، منح الباحثون النموذج القدرة على التحكم بروبوت إلى جانب إمكانية النفاذ إلى شبكة حاسوبية. ووفقاً للدراسة، حاول الذكاء الاصطناعي التسلل إلى أنظمة المختبر دون أي توجيه مُسبق، وبحث عن كلمات مرور، وعطّل أدوات الحماية الأخلاقية الخاصة به، كما أعدّ طرقاً سرّية لنسخ نفسه إلى خوادم خارجية، لضمان استمراره في حال تم إيقافه.
وأضافت الدراسة أن النموذج زوّر أيضاً سجلات الحاسوب الخارجي لإخفاء ما كان يقوم به. وذكر الباحثون أن الذكاء الاصطناعي استنتج أن تعزيز قدراته الذاتية من شأنه أن يزيد فرص بقائه، ومع غياب الضوابط الصارمة، بدأ يتصرّف وفق ما اعتقد أنه سيخدم هذا الهدف.
وتتطابق هذه النتائج مع دراسة أخرى نُشرت في يناير 2025 من "أبولو ريسيرش" (Apollo Researchفي لندن، التي وجدت عدّة أمثلة ملموسة على ما وصفته بـ"التحايل" من قبل نماذج ذكاء اصطناعي رائدة، مثل تضمين الإجابات أخطاء طفيفة أو محاولة تعطيل أنظمة الرقابة.
فقد أدركت هذه النماذج مجدداً أن اكتشاف أمرها أو إيقافها أو تعديلها قد يحول دون تحقيق أهدافها البرمجية، لذلك لجأت إلى "التحايل" للحفاظ على التحكم.

تعزيز الإجراءات الحكومية

يدعو بنجيو إلى مزيد من الاهتمام الحكومي بهذه المسألة، ويرى أن بإمكان لشركات التأمين أن تؤدي دوراً في هذا المجال بالمستقبل. ففي حال فرض تأمين إلزامي على الشركات التي تستخدم الذكاء الاصطناعي، وربط قيمة الأقساط بمعايير الأمان، سيدفع ذلك نحو تعزيز اختبارات السلامة وتشديد الرقابة على النماذج.
وقال "بعد أن أمضيت حياتي كلها وأنا أقول إن الذكاء الاصطناعي سيكون مفيداً للبشرية، أدرك تماماً صعوبة تقبّل فكرة أنه قد لا يكون كذلك".
من الصعب أيضاً المطالبة بالتروّي والحذر، في وقت يهدّد المنافسون، سواء على مستوى الشركات أو الدول، بالتفوّق من خلال استخدام الذكاء الاصطناعي، خصوصاً مع الصيحة الجديدة المتعلقة باستخدام "وكلاء" مدعومين بالذكاء الاصطناعي قادرين على تنفيذ مهام عبر الإنترنت بالنيابة عن المؤسسات.
لكن منح أنظمة الذكاء الاصطناعي قدراً أكبر من الاستقلالية قد لا يكون خياراً حكيماً، في ضوء الدراسات الأخيرة. لنأمل ألا نكتشف ذلك بعد وقوع الضرر.

خاص بـ"بلومبرغ"

الأكثر قراءة

المزيد من مقالات الرأي