مرحبًا بكم في مهمة (KSAA-2026) المشتركة

للإملاء الصوتي العربي مع التشكيل التلقائي

المقدمة:

تقدّم مهمة (KSAA-2026) المشتركة معيارًا جديدًا متعدد الوسائط يهدف إلى تحويل نصوص الكلام العربي الخام إلى نصوص مكتوبة مُشكَّلة بالكامل. وعلى عكس مهام التعرّف الآلي على الكلام (ASR) التي تركز على الإملاء فقط، يستهدف هذا التحدي استعادة التشكيل، وهي مشكلة لغوية راسخة وغير محلولة في معالجة اللغة العربية؛ نظرًا إلى الغموض المعجمي، والتباين النحوي، وغياب التشكيل عن معظم النصوص المكتوبة.

وتتضمن المهمة المشتركة مهمتين فرعيتين:

  1. الإسهام بالبيانات: بأن يقدّم المشاركون ما لا يقل عن ساعة واحدة من الكلام العربي المسجَّل في منصة الجدارية الصوتية؛ بما يسهم في إثراء المعيار.
  2. التشكيل التلقائي لنصوص الإملاء الصوتي: بأن يطوّر المشاركون نماذج تستقبل الصوت + النص غير المُشكَّل، وتنتج نصًّا مُشكَّلًا بالكامل.

ويشمل المعيار حاليًّا (5) ساعاتٍ من الكلام باللغة العربية الفصحى، وبلهجات عربية متعددة، وسيواصل التوسع بمشاركات المجتمع البحثي.

 

التسجيل:

على المشاركين التسجيل في الرابط الآتي:


https://forms.office.com/r/KF4bvNNASP?origin=lprLink

 

البيانات:

تتكون البيانات من (5) ساعاتٍ من التسجيلات الصوتية باللغة العربية، جُمعت من متحدثين ذكور وإناث من اللهجات المختلفة: السعودية، والمصرية، والكويتية، والبحرينية، والسودانية، والقطرية، والجزائرية، والسورية، والفلسطينية.
تتسم الجمل بأنها قصيرة (حوالي (9) ثوانٍ للجملة الواحدة)، وتشمل مجالاتٍ متنوعةً: السياسة، والرياضة، والاقتصاد، والأخبار، والدين.

شملت عملية التوسيم (Annotation) مواءمة الصوت مع النصوص المكتوبة، وضمان سلامة التشكيل. وقد نُفِّذت خطوات متعددة لضمان الجودة، تضمنت: توحيد الملفات، ووضع تسميات معيارية، ومراجعات يدوية للتشكيل؛ لضمان الاتساق والموثوقية.

ويُطلب من كل فريق تقديم ساعة واحدة على الأقل من التسجيلات، على أن تخضع جميع التسجيلات لفحوصات آلية ومراجعة يدوية يجريها عضو آخر من الفريق نفسه.

ولضمان الشفافية والاتساق؛ سيُزوَّد المشاركون بمعيار موحّد للمراجعة اليدوية.
وبعد اعتماد التسجيلات ستُتاح البيانات المجمَّعة لجميع الفرق المشاركة لضمان العدالة. وسيُكرَّم المشاركون الذين يحققون أكبر حجم من التسجيلات عالية الجودة، وأدق مستوى للتشكيل؛ تعزيزًا لتوسيع البيانات، وتنوع اللهجات والمتحدثين.

 

المهام:

المهمة الأولى: الإسهام بالبيانات:

يجب على كل فريق تقديم ساعة واحدة على الأقل من الكلام العربي، وتخضع التسجيلات للفحص الآلي والمراجعة اليدوية من عضو آخر في الفريق.

المهمة الثانية: التشكيل التلقائي لنصوص الإملاء الصوتي:

تعاني أنظمة التشكيل النصي من الأخطاء غالبًا عند تطبيقها على نصوص ناتجة عن التفريغ الصوتي؛ بسبب اختلاف النطق والأسلوب، إضافةً إلى أن أنظمة التعرف الآلي على الكلام نادرًا ما تنتج نصوصًا مُشكَّلةً بدقة.
تستهدف هذه المهمة سد هذه الفجوة بإلزام المشاركين ببناء أنظمة تستفيد من الصوت والنص غير المُشكَّل لإنتاج نص مُشكَّل بالكامل، وسيُزوَّد المشاركون بعينة توضح بنية الإدخال والإخراج. والمطلوب هو: إضافة التشكيل لكل حرف في النص غير المُشكَّل.

 

 

مقطع صوتي

المدخلات:

أريد أن أشرب كوبًا من الشاي

النص غير المُشكَّل

أُرِيدُ أَنْ أَشْرَبَ كُوبًا مِنَ الشَّاي

النص المُشكَّل

المخرجات:

 

التقييم:

المهمة الأولى:

سيُقيَّم إسهام البيانات بناءً على مدة التسجيلات الصوتية المقدَّمة وجودتها:

  • • يجب على كل فريق تقديم ساعة واحدة على الأقل من البيانات الصوتية الصالحة.
  • • ستُقيَّم جودة البيانات من خلال فحوصات آلية ومراجعة يدوية يجريها عضو آخر في الفريق.
  • • تتضمن المراجعة اليدوية: تقييم وضوح التسجيل، والالتزام بالنصوص المقررة، واتساق التشكيل.
  • • سيُوفَّر دليل موحّد للتقييم اليدوي؛ لضمان الاتساق والشفافية.
  • • سيُربَط كل تسجيل باسم الفريق والمشارك الفردي؛ لضمان الإسناد الكامل.
  • • ستُتاح جميع البيانات المعتمدة لجميع المشاركين في المهمة المشتركة؛ لضمان العدالة، وتوسيع مجموعة البيانات.

 

المهمة الثانية:

ستُقيَّم النماذج باستخدام المقاييس التالية:

  • معدل الخطأ على مستوى الحرف  .(CER)
  • معدل الخطأ في التشكيل .(DER)  
  • معدل الخطأ على مستوى الكلمة  .(WER)

 

خطوط الأساس:

يتوفر مساران للتقييم، هما:

  1. خط الأساس النصي:

باستخدام أداة (كامل) التي تستقبل النصوص غير المشكَّلة، وتنتج نصوصًا مُشكَّلةً.

  1. خط الأساس الصوتي + النصي (المسار الرئيس):

باستخدام نموذج(LSTM)   (Shatnawi et al., 2024) الذي يدمج الإشارات الصوتية مع مخرجات (ASR) والنصوص غير المشكَّلة؛ لتحسين التشكيل.

DER

CER

WER

النموذج

35.80%

19.86%

85.36%

أدوات كامل (نصوص فقط):

قريبًا

قريبًا

قريبًا

نموذج LSTM (نصوص ومقاطع صوتية):

 

طريقة التسليم، وصيغة المخرجات المتوقعة:

يجب على المشاركين إنتاج نص مُشكَّل بالكامل. ستتبع المخرجات صيغة (JSON) مبسَّطة (تُنشر ضمن الحزمة النهائية للبيانات).

[

  {

    "id": "utt_00123",

    "text_diacritized": "النص المُشَكَّل هنا"

  },

  {

    "id": "utt_00124",

    "text_diacritized": "هَذا نَصٌّ مُشَكَّلٌ آخَر"

  }

]

 

 

الجوائز:

يسعدنا الإعلان عن الجوائز المخصصة للمهمة المشتركة في مؤتمر(LREC 2026) . ستنال أعلى الفرق ترتيبًا في كل مهمة الجوائز المالية الآتية:

المهمة (1): الإسهام بالبيانات:

  • المركز الأول: (350) دولارًا.
  • المركز الثاني: (250) دولارًا.
  • المركز الثالث: (150) دولارًا.

المهمة (2): التشكيل التلقائي لنصوص الإملاء الصوتي:

  • المركز الأول: (350) دولارًا.
  • المركز الثاني: (250) دولارًا.
  • المركز الثالث: (150) دولارًا.

 

سيُحدَّد الفائزون وترتيبهم وفقًا لمعايير التقييم المحددة لكل مهمة، آملين التوفيق لجميع الفرق، ومتطلعين إلى إعلان الفائزين في ختام سباق هذه المهمة المشتركة!

 

تواريخ مهمة:

  • •10 ديسمبر 2025م: الإعلان الأول  .(CFP)
  • • 10 يناير 2026م: الإعلان الثاني .(CFP)
  • • 15 يناير 2026م: إصدار بيانات التدريب.
  • • 15 فبراير 2026م: إصدار بيانات الاختبار.
  • • 01 مارس 2026م: الموعد النهائي لتقديم النماذج.
  • • 10 مارس 2026م: إعلان النتائج.
  • • 20 مارس 2026م: الموعد النهائي لتقديم الأوراق.
  • • 15 أبريل 2026م: إشعار القبول.
  • • 30 أبريل 2026م: الموعد النهائي للنسخة الجاهزة للطباعة.
  • • 11-16 مايو 2026م: ورش العمل في مؤتمر .(LREC 2026)   

 

 

التواصل:

البريد: aalwazrah@ksaa.gov.sa , ralrasheed@ksaa.gov.sa

 

 

المنظمون:

  • وعد الشمري- مجمع الملك سلمان العالمي للغة العربية .(KSAA)
  • أسماء الوزرة- مجمع الملك سلمان العالمي للغة العربية .(KSAA)
  • روان المعثم- مجمع الملك سلمان العالمي للغة العربية .(KSAA)
  • أفراح التميمي- مجمع الملك سلمان العالمي للغة العربية .(KSAA)
  • رغد آل رشيد- مجمع الملك سلمان العالمي للغة العربية .(KSAA)
  • سوسن القحطاني- جامعة الأميرة نورة بنت عبدالرحمن .(PNU)
  • حنان الدرمكي — جامعة محمد بن زايد للذكاء الاصطناعي (MBZUAI).
  • روفايل مارو — جامعة محمد بن زايد للذكاء الاصطناعي (MBZUAI).
  • عبدالرحمن الشهري - مجمع الملك سلمان العالمي للغة العربية .(KSAA)
  • محمد عصر - مجمع الملك سلمان العالمي للغة العربية .(KSAA)
  • عبدالله الحربي- مجمع الملك سلمان العالمي للغة العربية .(KSAA)
  • عبدالرحمن العصيمي- مجمع الملك سلمان العالمي للغة العربية .(KSAA)