ماذا يعني بناء الذكاء الاصطناعي محليا؟
بعد إطلاق روبوت المحادثة ChatGPT من شركة OpenAI في نوفمبر 2022، بدا الأمر وكأن الأسس التي تقوم عليها نماذج الذكاء الاصطناعي اللغوية الضخمة تتسم بقوة كونها: غربية، وصناعية، وغنية، ومثقفة، وديمقراطية، أو ما يطلق عليه اختصارا "WIRED". افترض الجميع أن النماذج اللغوية الضخمة، إذا كانت تتحدث لغة معينة، وتعكس رؤية بعينها للعالم، فستكون هذه اللغة أو الرؤية غربية. حتى أن OpenAI اعترفت بانحراف ChatGPT نحو وجهات نظر غربية واللغة الإنجليزية.
ولكن حتى قبل أن يُصدِر منافسو OpenAI في الولايات المتحدة (مثل شركة Google وشركة Anthropic) نماذجهم اللغوية الضخمة في العام التالي، أدرك مطورو الذكاء الاصطناعي في جنوب شرق آسيا الحاجة إلى أدوات ذكاء اصطناعي تتحدث إلى منطقتهم بلغاتها العديدة ــ وهي ليست بالمهمة الهينة، خاصة وأن شعوب المنطقة تتحدث أكثر من 1200 لغة.
علاوة على ذلك، في منطقة حيث تتصادم ذكريات حضارية بعيدة، غالبا مع تاريخ ما بعد الاستعمار المعاصر، تكتسب اللغة صبغة سياسية عميقة. وحتى البلدان التي تبدو أحادية اللغة في ظاهرها تعطي انطباعا زائفا عن تنوع ملحوظ: يتحدث الكمبوديون ما يقرب من 30 لغة، والتايلانديون نحو 70 لغة، والفيتناميون أكثر من 100 لغة. وهي أيضا منطقة تمزج المجتمعات المحلية فيها بين اللغات بسلاسة، حيث تعبر الإشارات غير اللفظية عن كثير، وحيث تكون التقاليد الشفهية أكثر انتشارا في بعض الأحيان من الوسائل النصية في التعبير عن الفوارق الثقافية والتاريخية العميقة المشفرة في اللغة.
ليس من المستغرب أن يواجه أولئك الذين يحاولون بناء نماذج ذكاء اصطناعي محلية حقا لمنطقة تتحدث لغات كثيرة غير ممثلة بالقدر الكافي عددا كبيرا من العقبات، بدءا من قِـلة البيانات المشروحة العالية الجودة والكم إلى الافتقار إلى القدرة على الوصول إلى القوة الحاسوبية اللازمة لبناء وتدريب النماذج من الصفر. في بعض الحالات، تكون التحديات أكثر أساسية، وهذا يعكس نقصا في عدد الناطقين باللغة الأصلية وقواعد الإملاء الموحدة أو الانقطاعات المتكررة في إمدادات الكهرباء.
نظرا لهذه القيود، اكتفى كثيرون من مطوري الذكاء الاصطناعي في المنطقة بضبط نماذج قائمة أنشأتها شركات أجنبية. وهذا ينطوي على أخذ نموذج مُدرَّب مسبقا مُـغذى على كميات ضخمة من البيانات ثم تدريبه على مجموعة بيانات أصغر حول مهارة أو مهمة بعينها.
كما كان لزاما على المطورين في جنوب شرق آسيا في السابق أن يضعوا في الحسبان التحيز الغربي الكامن في النماذج التأسيسية المتاحة، يتعين عليهم الآن أن يضعوا في اعتبارهم وجهات نظر مصفاة أيديولوجيا مضمنة في نماذج صينية مدربة مسبقا. من عجيب المفارقات أن الجهود المبذولة لتوطين الذكاء الاصطناعي وضمان قدر أكبر من الفاعلية لمجتمعات جنوب شرق آسيا قد تعمل على تعميق اعتماد المطورين على لاعبين أكبر كثيرا، على الأقل في المراحل الأولية.
مع ذلك، بدأ المطورون في جنوب شرق آسيا معالجة هذه المشكلة أيضا. فعلموا على تدريب نماذج متعددة مسبقا، بما في ذلك SEA-LION (مجموعة من 11 لغة إقليمية رسمية)، وPhoGPT (الفيتنامية)، و MaLLaM (الملايو)، من الصفر على مجموعة بيانات ضخمة وعامة لكل لغة بعينها. وستسمح هذه الخطوة الرئيسية في عملية التعلم الآلي بضبط هذه النماذج بدرجة أكبر لتناسب مهام بعينها.
وقد حذّر مؤرخو المنطقة من أن تطبيق العدسة الغربية على النصوص المحلية يزيد على خطر إساءة تفسير وجهات نظر السكان الأصليين. فمن القرن الثامن عشر إلى القرن التاسع عشر، كان المسؤولون الاستعماريون الإندونيسيون يقرأون في كثير من الأحيان فهمهم الخاص للسجلات الجاوية في نسخ مترجمة. ونتيجة لذلك، كان التعامل مع كثير من الملاحظات البريطانية والأوروبية المتحيزة عن شعوب جنوب شرق آسيا على أنها روايات تاريخية صحيحة، وجرى استيعاب التصنيفات العرقية والقوالب النمطية من الوثائق الرسمية. إذا جرى تدريب الذكاء الاصطناعي على مثل هذه البيانات، فقد ينتهي الأمر إلى ترسيخ التحيزات بشكل أكبر.
البيانات ليست معرفة. ولأن اللغة بطبيعتها اجتماعية وسياسية ــ حيث تعكس التجارب العلائقية لمن يستخدمونها ــ فإن تأكيد الوكالة في عصر الذكاء الاصطناعي يجب أن يتجاوز الكفاية التقنية للنماذج التي تتواصل باللغات المحلية. ويتطلب الأمر التصفية الواعية للتحيزات الموروثة، والتشكيك في الافتراضات حول هويتنا، وإعادة اكتشاف مستودعات المعرفة الأصلية في لغاتنا. لا يمكننا عرض ثقافاتنا بأمانة من خلال التكنولوجيا إذا كنا لا نفهمها إلا بالكاد في المقام الأول.
خاص بـ "الاقتصادية"
حقوق النشر: بروجيكت سنديكيت، 2025.