الذكاء الاصطناعي يتعلم الترجمة بنفسه.. دون أن يعلّمه أحد

١٥ أبريل ٢٠٢٦

تظهر أبحاث جديدة أن نماذج الذكاء الاصطناعي باتت تكتسب القدرة على الترجمة دون تدريب مباشر. هذا التطور مدهش، لكنه يكشف أيضاً عن ضعف سيطرة المطورين على ما تتعلمه هذه الأنظمة.

لا يزال معظم الناس يتخيلون الترجمة الآلية كمهمة منظمة وخاضعة للإشراف. يقوم المهندسون بتزويد النموذج بملايين الجمل المترجمة بلغتين، فيدرس النظام التطابقات، ثم ينتج برنامجاً للترجمة. لكن هذه الصورة أصبحت قديمة جداً الآن. يبدو أن بعض أكبر نماذج الذكاء الاصطناعي اليوم تطور مهارات الترجمة بنفسها جزئياً، ببساطة عبر استيعاب كميات هائلة من النصوص متعددة اللغات وتعلم بنية اللغة على نطاق واسع. إنه تحول مذهل، ولكنه أيضاً بمثابة تحذير. فكلما زادت قدرة هذه الأنظمة، أصبح من الواضح أن حتى صانعيها لا يتحكمون بشكل كامل فيما تتعلمه.

هذا ليس خيالاً علمياً، ولا مجرد لغة تسويقية. فالباحثون يوثقون منذ سنوات أشكالاً من القدرات اللغوية المتعددة التي تظهر من تلقاء نفسها. أظهر عمل من جوجل حول الترجمة الآلية العصبية متعددة اللغات أن النماذج التي تدربت على أزواج لغات كثيرة يمكنها أداء ترجمة فورية بين أزواج لغات لم تتدرب عليها مباشرة. كان ذلك بمثابة شرخ كبير في الافتراض القديم القائل بأن كل مسار ترجمة يجب أن يتم تعليمه بشكل صريح. ومنذ ذلك الحين، دفعت نماذج اللغة الكبيرة التي تدربت على مجموعات بيانات ضخمة بحجم الإنترنت بالفكرة إلى أبعد من ذلك. فقد أظهرت نماذج مثل أنظمة GPT، ونماذج ميتا متعددة اللغات، والنماذج المفتوحة مثل إصدارات Llama، أنها تستطيع غالباً الترجمة والتلخيص والإجابة على الأسئلة عبر لغات مختلفة حتى لو لم تكن الترجمة مهمتها الوحيدة أو الأساسية.

الأدلة أقوى في اللغات ذات الموارد الرقمية الضخمة. فاللغات الإنجليزية والإسبانية والفرنسية والألمانية والصينية والعربية وعدد قليل من اللغات الأخرى تهيمن على النصوص الموجودة على الإنترنت التي تستوعبها هذه الأنظمة. وقد وجدت الأبحاث من مؤسسات مثل DeepMind وجوجل وميتا والجامعات الكبرى مراراً وتكراراً أن توسيع نطاق التدريب متعدد اللغات يحسن نقل المعرفة بين اللغات. بكلمات بسيطة، عندما يتعلم النموذج ما يكفي عن لغات عديدة، يمكنه أحياناً ربط المعاني بينها دون الحاجة لأمثلة مباشرة لكل زوج من اللغات. والنتيجة قد تبدو مدهشة للغاية. اطلب من النظام نقل فكرة من لغة إلى أخرى، وغالباً ما يستطيع فعل ذلك.

لكن العنوان الجذاب القائل بأن الذكاء الاصطناعي يعلم نفسه الترجمة يحتاج إلى بعض الدقة. أولاً الحقائق: هذه النماذج لا تتعلم من فراغ، بل تتدرب على محيطات من النصوص التي أنتجها البشر، والتي جُمِعت غالباً من الويب والكتب والرموز البرمجية ومصادر ضخمة أخرى. هي لا تخترع اللغة من لا شيء. ثانياً الرأي: وصفها بأنها "تعلّمت بنفسها" هو اختصار مفيد، لكنه قد يكون مضللاً أيضاً. ما يحدث حقاً هو أن النموذج يستخلص الأنماط من تعرضه لكم هائل من النصوص متعددة اللغات، لدرجة أن الترجمة تصبح نتيجة ثانوية لتعلم اللغة بشكل عام. وهذا أقل رومانسية مما يوحي به التعبير، لكنه قد يكون أكثر أهمية من الناحية العملية.

لماذا يحدث هذا؟ لأن الترجمة ليست مجرد مطابقة قواميس، بل هي مطابقة أنماط تتعلق بالمعنى والقواعد والسياق والمعرفة بالعالم. والنماذج الكبيرة بارعة جداً في استخلاص الأنماط عندما تُمنح بيانات كافية وقوة حاسوبية كافية. فإذا رأى النظام نفس أسماء الكيانات والأحداث والمنتجات والأماكن والمفاهيم تتكرر عبر لغات متعددة، فإنه يبدأ في بناء تمثيلات داخلية تربطها ببعضها. غالباً ما يصف الباحثون هذا بأنه "مساحة دلالية مشتركة". قد يبدو المصطلح نظرياً، لكن الفكرة بسيطة: يبدأ النموذج في التعامل مع الأفكار باعتبارها قابلة للنقل بين اللغات.

هذا يغير اقتصاديات الذكاء الاصطناعي. كانت أنظمة الترجمة التقليدية تتطلب جمع بيانات مترجمة بعناية فائقة، وهو أمر مكلف ونادر في كثير من الأحيان بالنسبة للغات الأقل انتشاراً. أما إذا تمكنت النماذج العامة من اكتساب بعض القدرة على الترجمة من نصوص مختلطة متعددة اللغات، فيمكن للشركات إطلاق منتجاتها بشكل أسرع وأرخص. ولهذا السبب، فإن هذا التوجه مهم خارج نطاق المختبرات، فهو يؤثر على البحث وخدمة العملاء والإشراف على وسائل التواصل الاجتماعي والتجارة عبر الحدود وأدوات التعليم والمساعدات الصوتية. لم تعد الترجمة ميزة مستقلة، بل أصبحت قدرة مدمجة في أنظمة الذكاء الاصطناعي العامة.

هناك قصة جذابة هنا حول جعل التكنولوجيا في متناول الجميع. في أفضل الأحوال، يمكن للنماذج التي تعمم قدراتها عبر اللغات أن تساعد في جلب المزيد من الناس إلى الإنترنت بلغاتهم الأم. يمكنها دعم الترجمة منخفضة التكلفة للمدارس والعيادات والمهاجرين والشركات الصغيرة. وفي البلدان التي بها العديد من اللغات المحلية والموارد الرقمية المحدودة، يعد هذا أمراً مهماً. لقد حذرت اليونسكو وهيئات عالمية أخرى منذ فترة طويلة من الإقصاء الرقمي للغات ذات التمثيل الضعيف على الإنترنت. فإذا نجح الذكاء الاصطناعي في خفض هذا الحاجز، فستكون المكاسب حقيقية.

والآن، إلى الحقيقة المرة. يمكن لهذا التوجه نفسه أن يعمّق عدم المساواة. فهذه الأنظمة تكون أقوى حيث تكون البيانات أغنى، وأضعف حيث تشتد الحاجة إليها. وقد وجدت الأبحاث في مجال معالجة اللغات الطبيعية متعددة اللغات مراراً وتكراراً وجود خلل هائل: عدد قليل من اللغات يهيمن على البيانات والمعايير واهتمام المهندسين. أما اللغات ذات الموارد المحدودة، ولغات الشعوب الأصلية، واللهجات المحلية، فغالباً ما يتم التعامل معها بشكل سيئ أو يتم تجاهلها. قد يبدو النموذج متقناً للغة رئيسية ثم يفشل فشلاً ذريعاً في لغة إقليمية، أو قد يسحق المعاني المحلية ويحولها إلى صيغ نمطية. هذه ليست مجرد ملاحظة تقنية، بل هي قضية تتعلق بالقوة والنفوذ. فاللغة تحمل القانون والهوية والثقافة والثقة. والترجمة السيئة في مستشفى أو محكمة أو دائرة حكومية ليست مجرد خطأ بسيط.

هناك مشكلة أخرى تحب صناعة الذكاء الاصطناعي أن تتجاهلها. إذا كانت النماذج تتعلم قدرات بشكل غير مباشر، فإن اختبارها والتحكم فيها يصبحان أكثر صعوبة. يمكن للمطورين ضبط نظام لغرض معين، ومع ذلك يجدون أنفسهم أمام قدرات غير متوقعة أو حالات فشل في أغراض أخرى. هذا ليس دليلاً على وجود خطر في كل حالة، ولكنه تحدٍ حقيقي في الإدارة والرقابة. إذا لم تتمكن شركة ما من شرح أي السلوكيات اللغوية نشأت من أي بيانات وخطوات تدريب، فسيُترك المنظمون والمستخدمون أمام صندوق أسود مغلف بعرض ترويجي للمنتج.

الحل ليس في الذعر، وبالتأكيد ليس في الدعاية العمياء، بل في الشفافية المنضبطة. يجب على الشركات أن تكشف عن اللغات التي تم تقييم أنظمتها عليها بشكل موثوق وتلك التي لم يتم تقييمها. قد يبدو هذا أساسياً، لأنه كذلك بالفعل. لا يزال الكثير من منتجات الذكاء الاصطناعي تسوق لكفاءتها "متعددة اللغات" كما لو أن ذلك يعني جودة واسعة ومتساوية، وهو ليس كذلك. يجب أن تشمل معايير التقييم العامة لغات أكثر، خاصة المهمشة رقمياً. ويجب على الحكومات والجامعات الاستثمار في بيانات مفتوحة وأدوات تقييم للغات الممثلة تمثيلاً ناقصاً، بموافقة ومشاركة محلية. فإذا كان مستقبل الترجمة يتشكل بواسطة نماذج عملاقة، فلا ينبغي للجمهور أن يقبل بنظام مبني فقط حول اللغات الأكثر ربحية في العالم.

يحتاج المطورون أيضاً إلى التوقف عن التظاهر بأن حجم النموذج وحده يعني الحكمة. نعم، يمكن للنماذج الأكبر اكتشاف أنماط مذهلة عبر اللغات. لكن يمكنها أيضاً أن تكتسب التحيزات، أو تسيء ترجمة المفاهيم الحساسة، أو تمحو الفروق الدقيقة. لا يزال المترجمون البشريون وعلماء اللغة وخبراء المجتمعات المحلية مهمين. في الواقع، تزداد أهميتهم عندما تبدو أنظمة الذكاء الاصطناعي كفؤة بما يكفي لخداع المشترين والمسؤولين ودفعهم إلى الثقة بها بشكل مفرط. الخطر ليس في أن ترجمة الذكاء الاصطناعي عديمة الفائدة، بل في أنها مفيدة لدرجة قد تدفع إلى استخدامها بإهمال.

كانت القصة القديمة تقول إن الآلات تترجم لأن البشر يعلمونها كل خطوة بشكل صريح. أما القصة الجديدة فهي أكثر فوضوية وقوة. يمكن لنماذج الذكاء الاصطناعي تطوير قدرة الترجمة كأثر جانبي لتعلم اللغة على نطاق هائل. هذا إنجاز تقني حقيقي. وقد يكون أيضاً خط صدع سياسي وثقافي. عندما تبدأ آلة في بناء جسور بين اللغات دون أن تُخبَر مباشرة بكيفية القيام بذلك، يكون الإنجاز حقيقياً، وتكون المسؤولية حقيقية أيضاً. فالترجمة لا تتعلق بالكلمات فحسب، بل هي تحديد لأي معنى سينجو عند الانتقال من لغة إلى أخرى.

Source: Editorial Desk

Publication

The World Dispatch

Source: Editorial Desk

Category: AI