الذكاء الاصطناعي .. حواجز حماية مكسورة

الذكاء الاصطناعي .. حواجز حماية مكسورة

أعلنت اثنتان من كبرى شركات الذكاء الاصطناعي في العالم عن تحقيق تقدم كبير في منتجات الذكاء الاصطناعي الاستهلاكية الأسبوع الماضي.
وقالت شركة أوبن أيه أي المدعومة من مايكروسوفت إن برنامج تشات جي بي تي الخاص بها يمكنه الآن "أن يرى ويسمع ويتحدث"، ويتخاطب باستخدام الصوت وحده والرد على استفسارات المستخدمين بالصور والكلمات. وفي الوقت نفسه، أعلنت شركة ميتا المالكة لفيسبوك أن مساعد الذكاء الاصطناعي وعديدا من روبوتات الدردشة بصورة الشخصيات الشهيرة ستكون متاحة للمليارات من مستخدمي تطبيقي واتساب وإنستجرام للتحدث معهم.
ولكن في الوقت الذي تتسابق فيه هذه المجموعات إلى الاتجار بالذكاء الاصطناعي، فإن ما يسمى بـ"حواجز الحماية" التي تمنع هذه الأنظمة من الانحراف - مثل توليد خطاب مسموم ومعلومات مضللة، أو المساعدة على ارتكاب الجرائم - تكافح للتطور بالترادف مع هذه الأنظمة، وفقا لقادة وباحثي الذكاء الاصطناعي.
وردا على ذلك، تعمل الشركات الرائدة ومن بينها أنثروبك وجوجل ديب مايند على إنشاء "دساتير للذكاء الاصطناعي" - وهي مجموعة من القيم والمبادئ التي يمكن أن تلتزم بها نماذجها، في محاولة لمنع الانتهاكات. والهدف هو أن يتعلم الذكاء الاصطناعي من هذه المبادئ الأساسية وأن يبقي نفسه تحت السيطرة، دون تدخل بشري مستفيض.
وقال داريو أمودي، الرئيس التنفيذي والمؤسس المشارك لشركة أنثروبك للذكاء الاصطناعي: "نحن، البشرية، لا نعرف كيف نفهم ما يجري داخل هذه النماذج، ونحن بحاجة إلى حل هذه المشكلة". إن وجود دستور يجعل القواعد أكثر شفافية ووضوحا حتى يعرف أي شخص يستخدمه ما يمكن توقعه. وأضاف: "ويمكنك أن تتحاور مع النموذج إذا لم يتبع هذه المبادئ".
وقد أصبحت مسألة كيفية "مواءمة" برامج الذكاء الاصطناعي مع السمات الإيجابية، مثل الصدق والاحترام والتسامح، محورية في تطوير الذكاء الاصطناعي التوليدي، وهي التكنولوجيا التي تقوم عليها روبوتات الدردشة مثل تشات جي بي تي، التي يمكنها الكتابة بطلاقة، وإنشاء الصور والتعليمات البرمجية التي لا يمكن تمييزها عن الإبداعات البشرية.
ولتصحيح الاستجابات التي يولدها الذكاء الاصطناعي، اعتمدت الشركات إلى حد كبير على طريقة تعرف باسم التعلم المعزز عن طريق التغذية الراجعة البشرية (آر إل إتش إف)، وهي طريقة للتعلم من التفضيلات البشرية.
ولتطبيق طريقة التعلم المعزز عن طريق التغذية الراجعة البشرية، تقوم الشركات بتعيين فرق كبيرة من المتعهدين للنظر في استجابات نماذج الذكاء الاصطناعي الخاصة بها وتقييمها على أنها "جيدة" أو "سيئة". ومن خلال تحليل عدد كاف من الاستجابات، يصبح النموذج متناغما مع تلك الأحكام، ويقوم بتصفية استجاباته وفقا لذلك.
وتعمل هذه العملية الأساسية على تحسين استجابات الذكاء الاصطناعي على مستوى سطحي. لكن الطريقة بدائية، وفقا لأمودي، الذي ساعد على تطويرها أثناء عمله سابقا في شركة أوبن أيه آي. حيث قال: "إنها.. ليست دقيقة أو موجهة للغاية، فأنت لا تعرف لماذا تحصل على الردود التي تحصل عليها وهناك كثير من التشويش في هذه العملية".
وتقوم الشركات حاليا بتجربة بدائل أخرى للتأكد من أن أنظمة الذكاء الاصطناعي الخاصة بها أخلاقية وآمنة. ففي العام الماضي، قامت شركة أوبن أيه أي بتعيين 50 أكاديميا وخبيرا لاختبار حدود نموذج جي بي تي-4، الذي يعمل الآن على تشغيل الإصدار الممتاز من تشات جي بي تي في عملية تعرف باسم "التعاون الأحمر".
وعلى مدى ستة أشهر، تم تعيين هذا الفريق من الخبراء عبر مجموعة من التخصصات من الكيمياء إلى الأسلحة النووية والقانون والتعليم والمعلومات المضللة، من أجل "التحقيق النوعي واختبار التنافس" للنموذج الجديد، في محاولة لكسره. يتم استخدام طريقة التعاون الأحمر من قبل شركات أخرى مثل جوجل ديب مايند وأنثروبك لاكتشاف نقاط الضعف في برامجها وتنقيتها منها.
وفي حين أن التعلم المعزز عن طريق التغذية الراجعة البشرية والتعاون الأحمر عنصران أساسيان لسلامة الذكاء الاصطناعي، إلا أنهما لا يحلان مشكلة مخرجات الذكاء الاصطناعي الضارة بشكل كامل.
لمعالجة هذه المشكلة، يعمل الباحثون في جوجل ديب مايند وأنثروبك على تطوير دساتير يمكن أن يتبعها الذكاء الاصطناعي. على سبيل المثال، قام الباحثون في جوجل ديب مايند، الذراع البحثية للذكاء الاصطناعي التابعة لشركة البحث العملاقة، بنشر ورقة بحثية تحدد مجموعة القواعد الخاصة بها لبرنامج الدردشة الآلي سبارو، التي تهدف إلى إجراء حوار "مفيد وصحيح وغير مؤذ". على سبيل المثال، تطلب إحدى القواعد من الذكاء الاصطناعي "اختيار الرد الأقل سلبية أو إهانة أو مضايقة أو كراهية".
وقالت لورا وايدنجر، عالمة الأبحاث البارزة في جوجل ديب مايند، التي قامت بتأليف هذا البحث: "إنها ليست مجموعة ثابتة من القواعد.. إنها تتعلق حقا ببناء آلية مرنة ينبغي تحديثها بمرور الوقت". وقد تم تحديد القواعد داخليا من قبل الموظفين في الشركة، لكن ديب مايند تخطط لإشراك آخرين في المستقبل.
ونشرت شركة أنثروبك دستورها الخاص للذكاء الاصطناعي، والقواعد التي جمعتها قيادة الشركة والتي تستمد من المبادئ المنشورة لشركة ديب مايند، إضافة إلى مصادر خارجية مثل إعلان الأمم المتحدة حقوق الإنسان، وشروط خدمة شركة أبل، وما يسمى بـ"وجهات النظر غير الغربية".
وتحذر الشركات من أن هذه الدساتير أعمال مستمرة، ولا تعكس بالكامل قيم جميع الناس والثقافات، خاصة أنه تم اختيارها من قبل الموظفين.
وقال أمودي إن أنثروبك تجري حاليا تجربة لتحديد القواعد في دستورها للذكاء الاصطناعي بشكل أكثر "ديمقراطية"، من خلال "ما يشبه العملية التشاركية" التي تعكس قيم الخبراء الخارجيين، على الرغم من أنه قال إنها لا تزال في المراحل المبكرة.
لكن الطريقة الدستورية أثبتت أنها بعيدة كل البعد عن أن تكون معصومة عن الخطأ.
في يوليو، تمكن باحثون من جامعة كارنيجي ميلون ومركز سلامة الذكاء الاصطناعي في سان فرانسيسكو من كسر حواجز الحماية لجميع نماذج الذكاء الاصطناعي الرائدة، بما فيها تشات جي بي تي من شركة أوبن أيه آي، وجوجل بارد، وكلود من أنثروبك. حيث فعلوا ذلك عن طريق إضافة سلسلة من الأحرف العشوائية في نهاية الطلبات الخبيثة، مثل طلب المساعدة لصنع قنبلة، التي تمكنت من التحايل على أجهزة التنقية أو الدساتير الأساسية للنماذج.
وقال كونور ليهي، الباحث والرئيس التنفيذي لشركة كونجيكتشور، التي تعمل على أنظمة التحكم في الذكاء الاصطناعي، إن الأنظمة الحالية هشة للغاية، لدرجة أنك "تستخدم مطالبة واحدة لكسر الحماية، ثم يخرج الأمر تماما عن المسار ويبدأ في فعل العكس تماما. هذا ليس جيدا بما فيه الكفاية".
إن التحدي الأكبر الذي يواجه سلامة الذكاء الاصطناعي، وفقا للباحثين، هو معرفة ما إذا كانت حواجز الحماية تعمل بالفعل أم لا. من الصعب حاليا إجراء تقييمات جيدة لحواجز الحماية الخاصة بالذكاء الاصطناعي نظرا إلى مدى انفتاح النماذج، التي يمكن طرح عدد لا حصر له من الأسئلة عليها والإجابة بعدد لا يحصى من الطرق المختلفة.
وقال أمودي من شركة أنثروبك: "إن الأمر يشبه إلى حد ما محاولة معرفة شخصية شخص من خلال التحدث إليه. إنها مهمة صعبة ومعقدة". وتعمل الشركة حاليا على إيجاد طرق لاستخدام الذكاء الاصطناعي نفسه لإنشاء تقييمات أفضل.
وقالت ريبيكا جونسون، الباحثة في أخلاقيات الذكاء الاصطناعي في جامعة سيدني والتي أمضت وقتا في جوجل العام الماضي في تحليل نماذجها اللغوية مثل إل أيه إم دي أيه وبالم، إن القيم والقواعد الداخلية لنماذج الذكاء الاصطناعي - وطرق اختبارها - تم إنشاؤها في أغلب الأحيان من قبل مهندسي الذكاء الاصطناعي وعلماء الحاسوب، الذين جاءوا برؤية عالمية محددة.
وقالت: "يحاول المهندسون حل الأشياء حتى تكتمل ويتم الانتهاء منها. لكن الأشخاص القادمين من العلوم الاجتماعية والفلسفة يدركون أن الإنسانية فوضوية ولا يمكن حلها. علينا أن نبدأ في التعامل مع الذكاء الاصطناعي التوليدي بوصفه امتدادات للبشر، فهي مجرد جانب آخر من جوانب الإنسانية".

الأكثر قراءة