مرحبًا بكم في مهمة (KSAA-2026) المشتركة

للإملاء الصوتي العربي مع التشكيل التلقائي

سجل الآن صفحة CodaLab

المقدمة:

تقدّم مهمة (KSAA-2026) المشتركة معيارًا جديدًا متعدد الوسائط يهدف إلى تحويل نصوص الكلام العربي الخام إلى نصوص مكتوبة مُشكَّلة بالكامل. وعلى عكس مهام التعرّف الآلي على الكلام (ASR) التي تركز على الإملاء فقط، يستهدف هذا التحدي استعادة التشكيل، وهي مشكلة لغوية راسخة وغير محلولة في معالجة اللغة العربية؛ نظرًا إلى الغموض المعجمي، والتباين النحوي، وغياب التشكيل عن معظم النصوص المكتوبة.

وتُعدّ مهمة التشكيل التلقائي لنصوص الإملاء الصوتي من المهام اللغوية المعقّدة؛ نتيجة عدم التوافق بين النصوص الناتجة عن أنظمة التعرّف الآلي على الكلام، والنماذج التقليدية للتشكيل المعتمدة على النص فقط؛ إذ غالبًا ما تنتج أنظمة التفريغ الصوتي نصوصًا غير مُشكَّلة أو مُطبَّعة جزئيًا، في حين لا تستفيد نماذج التشكيل النصي من المعلومات الصوتية. وتهدف هذه المهمة المشتركة إلى معالجة هذه الفجوة من خلال التركيز على التشكيل المعتمد على الصوت.

وتتضمن المهمة المشتركة مهمتين فرعيتين:

الإسهام بالبيانات: يقدّم المشاركون ما لا يقل عن ساعة واحدة من التسجيلات الصوتية العربية عبر منصة الجدارية الصوتية (KSAA VoiceWall)؛ بما يسهم في إثراء المعيار المرجعي.
التشكيل الآلي لنصوص الإملاء الصوتي يطوّر المشاركون نماذج تستقبل الصوت والنص غير المشكّل بوصفهما مدخلات، وتنتج نصًّا عربيًّا مشكّلًا تشكيلًا كاملًا.

التسجيل:

على المشاركين التسجيل في الرابط الآتي:

https://forms.office.com/r/KF4bvNNASP?origin=lprLink

رابط منصة CODABENCH

البيانات:

تتكون مجموعة البيانات من نحو خمس ساعات من التسجيلات الصوتية باللغة العربية، جُمعت عبر منصة الجدارية الصوتية، وهي منصة جماعية لتجميع البيانات الصوتية طوّرها مجمع الملك سلمان العالمي للغة العربية. وقد جُمعت من متحدثين ذكور وإناث من اللهجات المختلفة: السعودية، والمصرية، والكويتية، والبحرينية، والسودانية، والقطرية، والجزائرية، والسورية، والفلسطينية.

تتسم جميع المقاطع الصوتية بقِصر مدتها؛ إذ لا تتجاوز تسع ثوانٍ للمقطع الواحد، وذلك دعمًا لدقة المواءمة بين الصوت والنص، وتحسين أداء التشكيل التلقائي. وتشمل التسجيلات مجالاتٍ موضوعيةً متعددةً، وخضعت لعمليات تحقق آلية، ومراجعات يدوية؛ لضمان جودة الصوت، ودقة التفريغ النصي.

شملت عملية التوسيم (Annotation) مواءمة التسجيلات الصوتية مع النصوص المكتوبة، والتحقق من صحة التشكيل. وقد نُفِّذت خطوات متعددة لضمان الجودة، تضمنت: توحيد الملفات الصوتية، ووضع تسميات معيارية، وإجراء مراجعات يدوية للتشكيل؛ لضمان الاتساق والموثوقية.

المهام:

المهمة الأولى: الإسهام بالبيانات:

يُطلب من كل فريق تقديم ساعة واحدة على الأقل من البيانات الصوتية. وتخضع جميع التسجيلات المقدَّمة لعمليات تحقق آلية، تليها مراجعة يدوية يجريها عضو آخر من الفريق نفسه، وذلك وفق دليل تقييم موحّد يُوفَّر لجميع المشاركين.

ويتعين على المشاركين التزام إرشادات التفريغ النصي والتشكيل المعتمدة؛ لضمان الاتساق بين المحتوى الصوتي والتمثيل النصي.

وبعد اعتماد التسجيلات، ستُتاح البيانات المجمَّعة لجميع الفرق المشاركة؛ دعمًا لعدالة المقارنة المعيارية، وتشجيعًا على النمو المستمر لمجموعة البيانات وتنوّعها.

المهمة الثانية: التشكيل التلقائي لنصوص الإملاء الصوتي:

يُطلب من المشاركين في هذه المهمة بناء أنظمة تستقبل المقطع الصوتي والنص غير المُشكَّل بوصفهما مدخلات، وتنتج نصًّا عربيًا مُشكَّلًا بالكامل.

وتتطلب المهمة التنبؤ بجميع علامات التشكيل العربية على مستوى الحرف، بما في ذلك: الفتحة، والضمة، والكسرة، والسكون، والشدة، والتنوين، لكل حرف في النص غير المُشكَّل.

يوضّح الجدول الآتي بنية بيانات الإدخال والإخراج الخاصة بالمهمة:

	مقطع صوتي	المدخلات:
أريد أن أشرب كوبًا من الشاي	النص غير المُشكَّل	المدخلات:
أُرِيدُ أَنْ أَشْرَبَ كُوبًا مِنَ الشَّاي	النص المُشكَّل	المخرجات:

التقييم:

المهمة الأولى:

سيُقيَّم الإسهام بالبيانات بناءً على مدة التسجيلات الصوتية وجودتها، وفق المعايير الآتية:

يجب على كل فريق تقديم ساعة واحدة على الأقل من البيانات الصوتية الصالحة.
ستُقيَّم جودة البيانات من خلال فحوصات آلية ومراجعة يدوية يجريها عضو آخر من الفريق، مع التركيز على وضوح الصوت، وخلو التسجيلات من الضوضاء الخلفية، وصحة قراءة النصوص المقرَّرة، ومواءمة المحتوى الصوتي مع النص المقابل.
تتضمن المراجعة اليدوية: تقييم وضوح التسجيل، والتزام النصوص، واتساق التفريغ النصي والتشكيل، وذلك وفق دليل تقييم موحّد يُوفَّر لجميع المشاركين.
سيُربط كل تسجيل باسم الفريق والمشارك الفردي؛ لضمان الإسناد الكامل.
ستُتاح جميع البيانات المعتمدة للمشاركين في المهمة المشتركة بعد الموعد الرسمي للتسليم؛ لاستخدامها في المقارنات المعيارية، والأبحاث المستقبلية؛ بما يضمن العدالة، ويدعم التوسّع المستمر لمجموعة البيانات.

المهمة الثانية:

تُقيَّم الأنظمة باستخدام ثلاثة مقاييس متكاملة:

معدل الخطأ في التشكيل :(DER) يقيس نسبة الأخطاء في علامات التشكيل على مستوى الحرف.
معدل الخطأ على مستوى الكلمة :(WER)تُعدّ الكلمة خاطئةً إذا احتوت على خطأ واحد على الأقل في التشكيل.
معدل الخطأ على مستوى الجملة :(SER) تُعدّ الجملة خاطئةً إذا وُجد فيها أي خطأ تشكيلي.

ويُعدّ معدل الخطأ على مستوى الكلمة (WER) المقياس الرئيس في التقييم؛ إذ يتطلب صحة التشكيل الكامل للكلمة؛ مما يجعله أكثر صرامةً في قياس أداء الأنظمة. وتُعرض مقاييس DER)) و (SER) بوصفها مقاييس مكمّلة؛ لإتاحة تحليل أكثر تفصيلًا على مستوى الحرف والجملة.

ولضمان تقييم شامل وشفاف؛ تُعرض النتائج وفق إعدادين للتقييم يعكسان مستوياتٍ مختلفةً من الصعوبة اللغوية:

باحتساب الإعراب (نهايات الكلمات).
دون احتساب الإعراب (نهايات الكلمات).

ويمثل الإعراب (نهايات الكلمات) أكثر جوانب التشكيل في اللغة العربية تحدّيًا؛ لاعتماده المباشر على السياق التركيبي والدلالي للجملة.

خطوط الأساس:

نوفّر نظامين أساسيين (Baseline) يتوافقان مع مساري المشاركة في المهمة. وتُقدَّم هذه الأنظمة بوصفها تطبيقاتٍ مرجعيةً لشرح إعداد المهمة وآلية التنفيذ، دون أن تكون مُحسّنةً لتحقيق أفضل أداء.

النظام الأساسي المعتمد على النص فقط: نموذج تشكيل قائم على المحوّلات (Transformer) يعمل على النص غير المشكّل فقط.
النظام الأساسي المعتمد على الصوت والنص (المسار الرئيس): نموذج قائم على المحوّلات يستفيد من مخرجات نظام التعرّف الآلي على الكلام (ASR) إضافةً إلى النص غير المشكّل، دون دمج صريح للخصائص الصوتية المستخرجة من الإشارة الصوتية.

وتُعرض نتائج الأنظمة الأساسية وفق إعدادي التقييم المذكورين أعلاه؛ لبيان أثر احتساب الإعراب (نهايات الكلمات) في أداء الأنظمة.

نص + تعرف آلي على الكلام (محسَّن بالضبط الدقيق)			نص فقط			نص + تعرف آلي على الكلام			إعداد التقييم (٪)
SER	WER	DER	SER	WER	DER	SER	WER	DER	إعداد التقييم (٪)
82.93	31.84	9.91	91.77	49.85	17.66	82.32	40.24	13.50	باحتساب الإعراب	اعتبار الحروف غير المشكَّلة
67.07	20.99	7.89	82.62	32.24	13.23	71.95	27.95	10.58	دون احتساب الإعراب	اعتبار الحروف غير المشكَّلة
78.66	24.73	8.52	91.77	46.20	20.08	75.61	33.03	14.26	باحتساب الإعراب	تجاهل الحروف غير المشكَّلة
50.61	10.89	4.82	81.71	27.07	13.93	60.37	19.71	9.96	دون احتساب الإعراب	تجاهل الحروف غير المشكَّلة

* القيم الأقل هي الأفضل.

طريقة التسليم، وصيغة المخرجات المتوقعة:

يجب على المشاركين إنتاج نص مُشكَّل بالكامل. ستتبع المخرجات صيغة (JSON) مبسَّطة (تُنشر ضمن الحزمة النهائية للبيانات).

[

{

"id": "utt_00123",

"text_diacritized": "النص المُشَكَّل هنا"

{

"id": "utt_00124",

"text_diacritized": "هَذا نَصٌّ مُشَكَّلٌ آخَر"

}

]

الجوائز:

نسعد بالإعلان عن الجوائز المخصصة للمهمة المشتركة في مؤتمر(LREC 2026) . ستنال أعلى الفرق ترتيبًا فيs كل مهمة الجوائز المالية الآتية:

المهمة (1): الإسهام بالبيانات:

• المركز الأول: (350) دولارًا.
• المركز الثاني: (250) دولارًا.
• المركز الثالث: (150) دولارًا.

المهمة (2): التشكيل التلقائي لنصوص الإملاء الصوتي:

• المركز الأول: (350) دولارًا.
• المركز الثاني: (250) دولارًا.
• المركز الثالث: (150) دولارًا.

سيُحدَّد الفائزون وترتيبهم وفقًا لمعايير التقييم المحددة لكل مهمة، آملين التوفيق لجميع الفرق، ومتطلعين إلى إعلان الفائزين في ختام سباق هذه المهمة المشتركة!

تواريخ مهمة:

• 18 ديسمبر 2025م: الإعلان الأول .(CFP)
• 10 يناير 2026م: الإعلان الثاني .(CFP)
• 15 يناير 2026م: إصدار بيانات التدريب.
• 15 فبراير 2026م: إصدار بيانات الاختبار.
• 01 مارس 2026م: الموعد النهائي لتقديم النماذج.
• 10 مارس 2026م: إعلان النتائج.
• 20 مارس 2026م: الموعد النهائي لتقديم الأوراق.
• 15 أبريل 2026م: إشعار القبول.
• 30 أبريل 2026م: الموعد النهائي للنسخة الجاهزة للطباعة.
• 11-16 مايو 2026م: حلقات عملية في مؤتمر.(LREC 2026)

التواصل:

البريد: aalwazrah@ksaa.gov.sa , ralrasheed@ksaa.gov.sa

المنظمون:

• وعد الشمري- مجمع الملك سلمان العالمي للغة العربية .(KSAA)
• أسماء الوزرة- مجمع الملك سلمان العالمي للغة العربية .(KSAA)
• روان المعثم- مجمع الملك سلمان العالمي للغة العربية .(KSAA)
• أفراح التميمي- مجمع الملك سلمان العالمي للغة العربية .(KSAA)
• رغد آل رشيد- مجمع الملك سلمان العالمي للغة العربية .(KSAA)
• سوسن القحطاني- جامعة الأميرة نورة بنت عبدالرحمن .(PNU)
• حنان الدرمكي — جامعة محمد بن زايد للذكاء الاصطناعي (MBZUAI).
• روفايل مارو — جامعة محمد بن زايد للذكاء الاصطناعي (MBZUAI).
• عبدالرحمن الشهري - مجمع الملك سلمان العالمي للغة العربية .(KSAA)
• محمد عصر - مجمع الملك سلمان العالمي للغة العربية .(KSAA)
• عبدالله الحربي- مجمع الملك سلمان العالمي للغة العربية .(KSAA)
• عبدالرحمن العصيمي- مجمع الملك سلمان العالمي للغة العربية .(KSAA)