مرحبًا بكم في مهمة المعجم العكسي المشتركة ضمن أعمال مؤتمر معالجة العربية الطبيعية ArabicNLP 2023!


المقدمة

تعد المعاجم العكسية أحد أنواع المعاجم التي تتيح للمستخدمين البحث عن الكلمات انطلاقا من معانيها أو تعريفاتها على خلاف ما هو متعارف عليه في المعاجم التقليدية التي يبحث فيها المستخدمون عن المعاني مستعملين الكلمة أو المادة المعجمية. فالمعجم العكسي يتيح للمستخدمين إدخال وصف للكلمة أو العبارة، ومن ثم تولد من خلال هذا الوصف قائمة من الكلمات التي تتناسب مع هذا الوصف. وتفيد المعاجم العكسية الكتّاب والشعراء وعشاق الألغاز اللغوية والكلمات المتقاطعة والمتعلمين للعربية من غير أهلها وكل من يبحث عن إثراء حصيلته من المفردات والكلمات. إن المعاجم العكسية تعالج على وجه التحديد مشكلة النسيان المؤقت (TOT Tip-of-the-tongue) التي تصف الحالة التي يشعر فيها الإنسان بأنه يعرف كلمة ما، ولكنه لا يستطيع استدعاءها في الوقت الحالي، ومن ثم يشعر بأن الكلمة أو الفكرة موجودة على "طرف لسانة"، ولكنه يعجز عن قولها واستحضارها بدقة. وتتضمن هذه المهمة المشتركة مسارين:
  • • الأول محدود، وفيه لا بد أن يقتصر المشارك على استعمال قاعدة البيانات التي نتيحها له.
  • • والثاني مفتوح، وفيه يطور المشاركون قواعد بياناتهم باستعمال المعجم الثنائي الدلالة (عربي -إنجليزي ) الذي نتيحه لهم.
فالمسابقة عبارة عن مهمتين:
  • • المهمة الأولى: المعجم العربي العكسي للبحث عن كلمة من تعريف عربي. مثال: "المسير ليلًا" ◀️◀️ "الإسراء"
  • • المهمة الثانية: معجم عكسي ثنائي الدلالة للبحث عن كلمة عربية من تعريف إنجليزي. مثال: "Travelling at night" ◀️◀️ "الإسراء"


  • التسجيل

    تتطلب المشاركة التسجيل من خلال هذا الرابط.


    قاعدة البيانات

    تتضمن قاعدة البيانات ثلاثة مكونات أساسية:
    • - المعجم العربي وفيه 58010 مدخلا مختارا من معجم اللغة العربية المعاصرة بهيكلة LMF بعد مراجعة وتحرير فريق التوسيم له. (المهمة ١).
    • - معجم ثنائي الدلالة (عربي - إنجليزي) يمكن الاسترشاد به في المهمة الثانية، ومتاح للتحميل من هنا .(المهمة ٢).
    • - معجم إنجليزي متاح، وهو ضمن مهمة المعجم العكسي في الورشة العالمية SemEval 2022 وفيه 63596 مدخلا معجميا.


    جدول 1 إحصاءات البيانات
    التدريب التطوير الاختبار
    المداخل المعجمية 45200 6400 6410
    المعجم الثنائي الدلالة 2843 299 1213



    هيكلة ملف المعجمين العربي والإنجليزي

    تتكون ملفات قواعد البيانات من بيانات لغوية بصيغة JSON،و يحتوي كل ملف على قائمة من الأمثلة، يمثل كل مثال فيها مدخلا معجميا يتضمن المفاتيح الآتية:
    • • "id"
    • • "word"
    • • "gloss"
    • • "sgns"
    • • "electra"
    • • "enId"

    وفيما يأتي مثال توضيحي لمدخل معجمي من قاعدة بيانات التدريب للمعجم العربي:

    {
    "id":"ar.45",
    "word":"عين",
    "gloss":"عضو الإبصار في ...",
    "pos":"n",
    "electra":[0.4, 0.3, …],
    "sgns":[0.2, 0.5, …],
    "enId": "en.150"
    }
    ويوضح فيه المعرّف "id" التسلسل الخاص بالمدخل المعجمي داخل المعجم مع اللغة التي ينتمي لها المعجم. وترتبط قيمة هذا المعرِّف بالمفتاح "gloss". ويشير إلى التعريف الخاص بالكلمة بحسب ما هو وارد في المعجم العربي المستعمل مصدرا لمسار المعجم العربي العكسي. أما قيمة "enId" فتشير إلى المعرف المقابل في المعجم الإنجليزي. أما المفتاحان ("sgns", "electra) عبارة عن مصفوفات من الأرقام العشرية تعرف بالتضمينات embeddings وتمثل مكونات المدخل المعجمي: الكلمة أو معناها.
    • - حيث تشير "sgns" تحديدا إلى تضمين الكلمات المولَّد بمنهجية تخطي الكلمات Skip-Gram method (SGNS) التي يشار إليها عادة باسم ووردتوفيك WORD2VEC.
    • - وتشير "electra" إلى تضمين الكلمات المسيّق القائم على المحولات Transformer-based contextualized embeddings. وكل ذلك منطلقات لمسار المعجم العكسي.



    وفيما يأتي مثال أيضا يوضح مدخلا معجميا من المعجم الثنائي الدلالة (عربي- إنجليزي) Mapped dictionary:
    {
    "id":"ar.45",
    "arword":"عين",
    "argloss":"عضو الإبصار في ...",
    "arpos":"n",
    "electra":[0.4, 0.3, …],
    "sgns":[0.2, 0.5, …],
    "enId":"en.150",
    "word":"eye",
    "gloss":"One of the two ...",
    "pos":"n",
    }
    وتشير القيمة "id" إلى المعرف الخاص بكل مدخل معجمي في المعجم العربي. ويرتبط بها المفتاحان "argloss" و"gloss" الخاصان بالتعريفين العربي والإنجليزي للمدخل المعجمي على التوالي كما هما في المعجم الثنائي اللغة المطابق دلاليا (عربي- إنجليزي) المستعمل مصدرا للمهمة الخاصة بالمعجم العكسي. أما المفتاحان ("sgns", "electra) عبارة عن مصفوفات من الأرقام العشرية تعرف بالتضمينات embeddings وتمثل مكونات المدخل المعجمي: الكلمة أو معناها.
    • - حيث تشير "sgns" تحديدا إلى تضمين الكلمات المولَّد بمنهجية تخطي الكلمات Skip-Gram method (SGNS) التي يشار إليها عادة باسم ووردتوفيك WORD2VEC.
    • - وتشير "electra" إلى تضمين الكلمات المسيّق القائم على المحولات Transformer-based contextualized embeddings.

    وكل ذلك منطلقات لمسار المعجم العكسي.


    ونختم بمثال توضيحي أخير لبيانات التدريب الخاصة بالمعجم الإنجليزي، وهو:
    {
    "id":"en.150",
    "word":"eye",
    "gloss":"One of the two ...",
    "pos":"n",
    "electra":[0.7, 0.1, …],
    "sgns":[0.2, 0.8, …]
    }
    ويلاحظ أن المعجم الإنجليزي له نفس المفاتيح الخاصة بالمعجم العربي، ويمكن استعماله في المهمة الثانية.


    المهام


    المهمة 1: المعجم العربي العكسي Arabic Reverse Dictionary (RD) (المسار المحدود).

    إن بنية المعاجم العكسية (sequence-to-vector) تختلف عن بنية المعاجم التقليدية (vector -to- sequence). وتركز هذه المهمة على تعلم كيفية تحويل تعريف الكلمة العربية إلى متجهات تضمينية بالعربية. وتنطوي هذه المهمة على إعادة بناء المتجهه التضميني للكلمة المعرفة بدلا من إيجاد الكلمة الهدف مباشرة. وسيمكن ذلك المستخدمين من البحث عن الكلمات انطلاقا من تعريفاتها أو معانيها التي يسعون للتعبير عنها. ولا بد أن تتضمن نقاط البيانات في بيانات التدريب تمثيلا متجهيا للكلمة وتعريف الكلمة المقابل لها. ولا بد أن يولد النموذج المقترح تمثيلات متجهية جديدة للتعريفات الهدف التي لم يرها النموذج من قبل في بيانات الاختبار.

    وهكذا يكون المدخل في هذه المهمة هو التعريف العربي للكلمة العربية (gloss)، أما المخرج فهو تضمينات الكلمة العربية.

    خط الأساس متاح هنا للمقارنة.


    المهمة 2: المعجم العكسي الثنائي الدلالة Cross-lingual Reverse Dictionary (CLRD) (المسار المفتوح)

    والهدف العام من هذه المهمة هو اكتساب القدرة على تحويل أي تعريف بالإنجليزية إلى متجهات تضمينية بالعربية. أما الهدف الرئيسي فهو تحديد المتجهة الأنسب والأدق للكلمة العربية التي تعبر تماما عن التعريف الإنجليزي تماما فيما يعرف لغويا بالتعريب Arabicization. وتتضمن المهمة إعادة بناء المتجهة التضميني للكلمة العربية يقابل التعريف الإنجليزي لها. وهذا المنهج يتيح للمستخدمين البحث عن كلمات من لغات مختلفة، كالعربية مثلا، انطلاقا من تعريفاتها الإنجليزية، ويسهل على المستخدم عمليات البحث في لغات متعددة، وفهم اللغات، والترجمة بين الإنجليزية وغيرها من اللغات.

    وفي هذه المهمة سيكون المدخل في النموذج هو تعريف الكلمة باللغة الإنجليزية (gloss)، وسيكون المخرج تضمينات الكلمة بالعربية.

    خط الأساس متاح هنا للمقارنة.


    خطوط الأساس

    تعتمد بنية خط الأساس التي اقترحها Mickus et al. (2022) على النموذج المحوَّل الذي قدمه Vaswani et al. (2017) وتنطوي هذه البنية على إدخال ( gloss التعريف) الممثل بسلسلة تبدأ بـ ‘bos’، وتنتهي بـ‘eos’ كمدخل لـمشفر المحولات Transformer encoder. عندها يقوم المشفر بتوليد تمثيلات خفية تجمع معا للوصول للتنبؤات. وفضلا عن ذلك، تستعمل وحدة تغذية أمامية غير خطية non-linear feed-forward لتحسين عملية التنبؤ. وسيستعمل تقييم المهمتين ثلاثة مقاييس، هي: الخطأ التربيعي المتوسط mean squared error (MSE)، ومقياس تشابه جيب التمام cosine similarity، والمقياس الترتيبي ranking metric.

    جدول 2 نتائج خط الأساس للمهمة (1) والمهمة (2)
    Dev Test
    عدد دورات التدريب epochs تشابه جيب التمام الخطأ التربيعي المتوسط المقياس الترتيبي تشابه جيب التمام الخطأ التربيعي المتوسط المقياس الترتيبي
    المهمة 1 (Sgns) 200 35.61 5.03 38.52 40.58 4.49 36.28
    المهمة 1 (Electra) 200 48.84 24.94 31.27 50.79 23.04 31.87
    المهمة 2 (Sgns) 300 26.22 4.92 50.16 25.21 4.85 49.95
    المهمة 2 (Electra) 300 54.09 22.10 36.22 51.66 23.81 40.72


    استلام المشاركات والتقييم

    تتبع عملية تقييم النموذج تسلسلًا من المقاييس. المقياس الرئيسي هو المقياس الترتيبي المستعمل لتقييم مدى قدرة النموذج على ترتيب التنبؤات جيدا مقارنة بالقيم الفعلية الحقيقية. وإذا تشابهت النماذج في ترتيبها، عمدنا إلى المقياس الثانوي الخطأ التربيعي المتوسط (MSE). وأخيرًا، إذا كانت ثمة حاجة لتمييز إضافي، يتيح لنا المقياس الثالث وهو تشابه جيب التمام، رؤى إضافية. وهذه المنهجية تضمن لنا اختيار نموذج متفوق وشامل.

    ستستضاف المهام المشتركة وتقيم من خلال منصة كودا لاب CODALAB على الروابط الآتية:


    الصيغة المتوقعة للمخرج

    خلال مرحلة التقييم، يتوقع من المشاركين إعادة بناء نفس ملفات الجيسنJSON . ستتضمن ملفات الاختبار JSON في المهتمتين مفتاح"id"، ومفاتيح التعريفات. وفي كلا المهمتين لا بد أن يعيد المشاركون بناء ملفات JSON المتضمنة على الأقل المفتاحين الآتيين:
    • - مفتاح "id" الأصلي.
    • - أي من التضمينات المتوفرة: مفتاحا "sgns" or "electra" باللغتين.


    الجوائز

    يسرنا الإعلان عن الجوائز المخصصة لمسابقة المهمة المشتركة: المعجم العكسي العربي في ArabicNLP 2023 حيث ستحصل أفضل الفرق في كل مهمة على جوائز نقدية على النحو الآتي:


    المهمة الأولى: المعجم العكسي العربي (RD) - المسار المحدود

    • - المركز الأول: 350 دولار
    • - المركز الثاني: 250 دولار
    • - المركز الثالث: 150 دولار


    المهمة الثانية: المعجم العكسي الثنائي الدلالة (عربي - إنجليزي) (CLRD) - المسار المفتوح

    • - المركز الأول: 350 دولار
    • - المركز الثاني: 250 دولار
    • - المركز الثالث: 150 دولار

    سيتم تحديد الفائزين وترتيبهم وفقا لمعايير التقييم المحددة لكل مهمة. نتمنى حظاً طيباً لجميع الفرق، متطلعين إلى الإعلان عن الفائزين في ختام سباق هذه المهمة المشتركة!


    تواريخ مهمة:

    • • إطلاق بيانات التدريب، والتطوير، وآلية التقييم: 16 يوليو 2023.
    • • الموعد النهائي للتسجيل: 14 أغسطس 2023.
    • • إطلاق بيانات الاختبار (والبيانات النهائية للتدريب والتطوير): 14 أغسطس 2023.
    • • انتهاء دورة التقييم (إغلاق تقديم مجموعة الاختبار): 20 أغسطس 2023.
    • • إعلان النتائج: 21 أغسطس 2023.
    • • الموعد النهائي لتقديم ورقة وصف النموذج: 5 سبتمبر 2023.


    التحديثات الأخيرة

    • • 6 يونيو 2023: تم إطلاق الموقع!
    • • 16 يوليو 2023: إصدار بيانات التدريب وبيانات التطوير، وآلية التقييم.
    • • 14 أغسطس 2023: الموعد النهائي للتسجيل.
    • •14 أغسطس 2023: إطلاق بيانات الاختبار .
    • • إعلان النتائج: 21 أغسطس 2023.


    التواصل


    المنظمون

    • روان المعثم, مجمع الملك سلمان العالمي للغة العربية (KSAA)
    • وعد الشمري, مجمع الملك سلمان العالمي للغة العربية (KSAA)
    • عبدالرحمن العصيمي, جامعة الإمام محمد بن سعود الإسلامية (IMSIU)
    • سارة الحمود, جامعة الإمام محمد بن سعود الإسلامية (IMSIU)
    • أسماء الوزرة, جامعة الإمام محمد بن سعود الإسلامية (IMSIU)
    • أفراح التميمي, جامعة الإمام محمد بن سعود الإسلامية (IMSIU)
    • هالة الحربي, مجمع الملك سلمان العالمي للغة العربية (KSAA)
    • عبدالله الفيفي , جامعة الإمام محمد بن سعود الإسلامية (IMSIU)