مرحبا بكـــــــــــــم في المسابقة البحثية في معجم العربية المعاصرة
(KSAA - CAD)!

للمعجم العكسي وفــــــك لبس المعـــــــــــاني فـــــــــــي المؤتمر الثاني للمعالجة الآلية للغة العربية ArabicNLP 2024.


المقدمة

تركز المسابقة البحثية KSAA-CAD على معجم اللغة العربية المعاصرة ضمن سيناريو تطويرنا لنظام المعجم العكسي (RD) وتعزيز قدرات فك اللبس في المعاني (WSD). وقد أكدت المهمة الأولى KSAA-RD (Al-Matham et al., 2023) على وجود ثغرات واضحة جدا في المعاجم العكسية التي صممت لاسترجاع الكلمات بناء على معانيها أو تعريفاتها. وتتألف المسابقة البحثية الحالية من مهمتين هما: المعجم العكسي (RD) وتعزيز قدرات فك اللبس في المعاني (WSD). وتركز المهمة الأولىRD على تحديد تضمينات الكلمات word embeddings الأكثر ارتباطا بالتعريفات العربية للكلمة التي اصطلحنا عليها بـ "gloss". أما المهمة الثانية WSD فتتضمن تحديد المعنى المقصود تماما من الكلمة في سياق معين خاصة وأن العربية تزخر بالكلمات التي تتعدد معانيها مع تطابق شكلها الهجائي الذي تكتب به. وهكذا فإن هذه المسابقة البحثية KSAA-CAD تقدم فرصًا جديدة ومبتكرة للباحثين لاستكشاف هذين المجالين، وتهيئ الفرصة لهم لتقديم مساهمات مهمة ومبتكرة في هذا المجال.


التسجيل

يشترط تسجيل المشاركين من خلال هذا الرابط.


المهام


المهمة 1: المعجم العربي العكسي Arabic Reverse Dictionary.

تتميز المعاجم العكسية RDs باستراتيجية بحث مختلفة عن استراتيجيات البحث التقليدية في المعاجم، حيث تحتص بأسلوب يعتمد على تحويل السلسات الكلامية إلى متجهات sequence-to-vector. وتركز مهمة المعجم العكسي RD على تحويل التعريفات أو المعاني المقروءة من البشر إلى متجهات تضمين الكلمات. وتستلزم هذه العملية إعادة بناء متجهات تضمين الكلمات المقابلة لكل كلمة مُعرّفة، تلك المنهجية التي تتوافق مع المنهجيات المتبعة في الدراسات السابقة (Mickus et al., 2022; Zanzotto et al., 2010; Hill et al., 2016). وتتضمن مجموعة البيانات المادة المعجمية lemma ، والتمثيلات المتجهية للمادة المعجمية، والمعاني المقابلة لها. ومن المتوقع أن يولد النموذج المطور تمثيلات متجهية جديدة للتعريفات التي يكتبها المستخدم ولم يدرب عليها النموذج من قبل. إن هذه الاستراتيجية تسمح للمستخدمين بالبحث عن الكلمات بناء على التعريفات أو المعاني التي يفترضونها.


المهمة الثانية: فك لبس المعاني Word Sense Disambiguation

يركز فك لبس المعاني على تحديد معنى كلمة في سياق ما تحديدا دقيقا. ويُصنَّف منهج فك لبس المعاني المعتمد على تعريف الكلمات gloss-based WSD بوصفه منهجا من المناهج القائمة على المعرفة knowledge-based. ويستعمل هذا المنهج موارد خارجية تتمثل غالبا في القواميس أو المعاجم. ويتضمن غالبا تحديد المعنى المقصود للكلمة من خلال حساب التداخل بين استعمالها السياقي الفعلي والتعريف أو المعنى المقدم.

وفي نطاق العربية المعاصرة، استعملت عدد من المعاجم العربية لتطوير مجموعات البيانات الخاصة بفك لبس المعاني والمعتمدة على تعريف الكلمات، كما يتضح من اعمال (Jarrar et al., 2023; El-Razzaz et al., 2021). لقد استعملت هذه الدراسات معجم اللغة العربية المعاصرة لأحمد مختار عمر (Omar, 2008)، فضلا عن اعتماد (Jarrar et al., 2023) في بحثهم على قاموس الغني الزاهر (Abul-Azm, 2014).


قواعد البيانات


البيانات

تتألف البيانات من مكونين أساسيين هما: بيانات المعجم ومتجهات تضمينات الكلمات. وينطوي منهجنا في توليد تلك التضمينات على ثلاثة أنماط مختلفة لتضمين الكلمات سياقيا.


بيانات المعاجم

لقد استخلصت مجموعة البيانات في النسخة الأولى للمهمة المشتركة KSAA-RD (Al-Matham et al., 2023) من مصدر واحد هو "معجم اللغة العربية المعاصرة لأحمد مختار عمر" (Omar, 2008). ولذلك نسعى في المسابقة البحثية الحالية أن نوسع مصادرنا لتتضمن ثلاثة معاحم هي: "معجم اللغة العربية المعاصرة لأحمد مختار عمر" (Omar, 2008)، المورد المستعمل في النسخة الأولى من المسابقة البحثية المشار إليها أعلاه، ومعجم الرياض للغة العربية المعاصرة الذي صدر حديثا (Altamimi et al., 2023)، والمعجم الوسيط (Namly, 2015).
وتعتمد المهمة على النسخة المنقولة من تلك المعاجم الثلاثة إلى معيار الآيزو العالمي، وتحديدا إطار التوصيف المعجمي Lexical Markup Framework (LMF) (Aljasim et al., 2022; Altamimi et al., 2023; Namly, 2015). وتلك المعاجم الثلاثة تنطلق في بنائها من المواد المعجمية للمداخل المعجمية لا من جذورها. ويتكون هيكل بنائها من مداخل معجمية يشار إليها عادة بالمواد المعجمية lemmas ويسند إليها القسم الكلامي pos والمعاني الدالة عليها gloss مع أمثلة لهذه المعاني example.


تضمين الكلمات

لقد كشفت التجارب التي أجريت في الإصدار الأول للمعجم العكسي في المسابقة البحثية KSAA-RD (Al-Matham et al., 2023) عن أن تمثيلات تضمين الكلمات التي لا تتغير بحسب السياق مثل: ووردتوفيك word2vec (Mikolov et al., 2013; Soliman et al., 2017) لم تؤد لنتائج مرضية. ومن ثم حولنا تركيزنا في المهمة الحالية إلى تضمين الكلمات في سياقاتها التي أظهرت تحسنا في أداء مهمة المعجم العكسي KSAA-RD. وسنستعمل وفقا لذلك نماذج متقدمة، نحو: إلكترا (Clark et al., 2020) وبيرت ((Devlin et al., 2019؛ لتحسين فعالية النظام. وهدفنا تحديدا هو استعمال آرالكترا (Antoun et al., 2021)، والنسخة الثانية من آرابيرت (Antoun et al., 2020)، وكامل بيرت للعربية المعاصرة (Inoue et al., 2021) في منهجيتنا. وآرالكترا هو نموذج لتمثيل اللغة العربية طور بالاعتماد على إطار عمل الكترا. فبدلا من تدريب النموذج لاستعادة الكلمات المخفية؛ صمم الكترا لتدريب النماذج التمييزية. أما آرابيرت، وكامل بيرت للعربية المعاصرة، فهما نموذجان للغة العربية طورا بالاعتماد على بنية بيرت. وتميز كامل بيرت عن أرابيرت بأنه قد أعيد تدريبه على مدونة للعربية المعاصرة.


وصف قاعدة البيانات

سنقدم ثلاث مجموعات بيانات بصيغة json، وستضم 39 ألف مدخل معجمي من العربية المعاصرة. وتنقسم هذه المجموعات البياناتية إلى ثلاثة أقسام: مجموعة تدريب وتمثل 80% من حجم البيانات الكلي، و10% بيانات تحقق، و10% بيانات اختبار، انظر الجدول 1 لتفاصيل أكثر متعلقة بإحصاءات البيانات.
المهمة التدريب التطوير الاختبار
المداخل المعجمية للمعجم العكسي 31,372 3,921 3,921
مداخل فك لبس المعاني 22,404 2,801 2,801
معجم فك لبس المعاني 15,865
جدول 1: إحصاء البيانات


خطوط الأساس


المعجم العكسي:

لقد استفدنا من النموذجين الأمثلين MARBERT (Abdul-Mageed, 2021)، و CamelBERT-MSA(Inoue et al., 2021)، باستعمال تقنيات الضبط fine-tuning لتحقيق أداء متفوق في البحث العكسي بالعربية. هذه النماذج المثلى أحدث ما توصلت إليه التقنيات (SOTA)، وقد أثبتت تفوقها ونجاحها في المسابقة البحثية الخاصة بـ KSAA-RD (Al-Matham et al., 2023).


فك لبس المعاني:

تثرى قاعدة البيانات بالمعرف الخاص بالمواد المعجمية من خلال ربط المداخل المعجمية بالمعجم؛ لضم المعاني المناسبة وغير المناسبة وتهيأ. ويدرب النموذج على تحديد مدى مناسبة المعنى لكلمة في سياق ما. ثم تحسب أكثر المعاني احتمالا لكل كلمة في السياق. وقد طبقنا ذلك من خلال منهجيتين:
  • •الضبط Fine-tuning: يستفيد هذا المنهج من ertForSequenceClassification وخصوصا مع CamelBERT-MSA و AraBERTv2؛ نظرًا لدقتهما الاستثنائية في تحديد الكلمات ذات الحساسية للسياق. وتحاط الكلمة الهدف في السياق برموز خاصة "<token>word</token>".

  • •الشبكة العصبية Neural Network: تتضممن هذه المنهجية إدخال ثلاث تضمينات لـ (السياق، الكلمة، والمعنى) من نموذج multilingual-E5-base إلى شبكة LSTM العصبية البسيطة التي تتألف من طبقة مدخلات ثلاثية الأبعاد، وطبقة LSTM واحدة، وطبقة dense ، وطبقة المخرج. وتعزز هذه الـتضمينات المتقدمة قدرة الـ LSTM على تحديد وتفسير المعاني للكلمات تحديدا دقيقا، وهذا يحسن الأداء. نشير إلى هذه التهيئة باسم نموذج E5+LSTM.


التقديم والتقييم

المعجم العكسي: تتبع عملية تقييم النموذج هنا سلسلة من المقاييس. فالمقياس الأساسي هو مقياس الرتبة ranking metric الذي يستعمل لتقييم مدى جودة تصنيف النموذج للتنبؤات مقارنة بالقيم الفعلية. وإذا ما تماثلت النماذج ينظر في المقياس الثانوي، وهو متوسط الخطأ التربيعي MSE. وإذا رأينا الحاجة لتمييز آخر، نستعمل جيب التمام cosine similarity. وهكذا نضمن اختيار نموذج مقبول عال الدقة.

فك لبس المعاني: نستعمل من المقاييس الأساسية: مقياس الدقة accuracy ، فنقيس ما إذا كان المعنى قد حدد تحديدا صحيحا، وهذا يعني أننا نعتمد على حساب نسبة التنبؤات الصحيحة عموما.
وستقيم المهام المشتركة من خلال CODALAB، عبر الروابط الآتية:


صيغة المخرجات المطلوبة

المعجم العكسي: من المتوقع في مرحلة التقييم أن تقدم المخرجات في صيغة JSON. وستضم ملفات JSON الاختبارية مفتاحي id و golss. وعلى المشاركين أن يضمنوا ملفات JSON الخاصة بهم مفتاحين على الأقل، هما:
  • 1- Id الأصلي.
  • 2- أي نوع من التضمينات ("electra", "bertseg", "bertmsa")

فك لبس المعاني: من المتوقع في مرحلة التقييم أن يعاد بناء نفس ملفات JSON. وستضم ملفات JSON الاختبارية مفتاح context_id ومفتاحي gloss_id المقابلين مع الدرجة الترتيبية لكل معنى، وفيما يأتي مثال يوضح ذلك:

{
"context_id":"context.301",
"gloss_id":"gloss.305",
"ranking_score": 0.9
}
{
"context_id":"context.301",
"gloss_id":"gloss.466",
"ranking_score": 0.7
}


الجوائز

يسرنا أن نعلن عن الجوائز المقدمة لهذه المسابقة البحثية التي ستنال فيها الفرق الأعلى تقييما الجوائز النقدية الآتية:


جائزة المهمة الأولى: المعجم العكسي

  • - المركز الأول: 350 دولار
  • - المركز الثاني: 250 دولار
  • - المركز الثالث: 150 دولار


جائزة المهمة الثانية: فك لبس المعاني

  • - المركز الأول: 350 دولار
  • - المركز الثاني: 250 دولار
  • - المركز الثالث: 150 دولار

علما بأن عملية اختيار الفائزين ستنطلق من مقاييس التقييم الرسمية المحددة لكل مهمة. حظا وافرا نرجوه لكل المتقدمين متطلعين إلى الإعلان عن الفائزين في ختام هذه المسابقة.


تواريخ مهمة:

  • • إصدار بيانات التدريب والتطوير، ووثائق التقييم: 15 مارس 2024.
  • • الموعد النهائي للتسجيل: 15 أبريل 2024.
  • • إطلاق بيانات الاختبار: 15 أبريل 2024.
  • • انتهاء الفترة التقييمية (إغلاق فترة إرسال بيانات الاختبار): 3 مايو 2024
  • • إعلان النتائج: 4 مايو 2024.
  • • موعد تقديم الورقة الوصفية للنظام: 10 مايو 2024
  • • إشعار القبول: 17 مايو 2024.


التحديثات الأخيرة

  • • 13 فبراير 2024 :تم إطلاق الموقع
  • • 24 فبراير 2024: تم إضافة وصف المهام وفتح باب التسجيل!
  • • 15 مارس 2024: تم إطلاق بيانات التدريب و التطوير


التواصل


المنظمون

  • وعد الشمري، مجمع الملك سلمان العالمي للغة العربية (KSAA)
  • امال المزوع، مجمع الملك سلمان العالمي للغة العربية (KSAA)
  • روان المعثم، مجمع الملك سلمان العالمي للغة العربية (KSAA)
  • منيرة الحوشان، مجمع الملك سلمان العالمي للغة العربية (KSAA)
  • عبدالرحمن العصيمي، جامعة الإمام محمد بن سعود الإسلامية (IMSIU)
  • أفراح التميمي، جامعة الإمام محمد بن سعود الإسلامية (IMSIU)
  • عبدالله الفيفي ، جامعة الإمام محمد بن سعود الإسلامية (IMSIU)