تقدّم مهمة (KSAA-2026) المشتركة معيارًا جديدًا متعدد الوسائط يهدف إلى تحويل نصوص الكلام العربي الخام إلى نصوص مكتوبة مُشكَّلة بالكامل. وعلى عكس مهام التعرّف الآلي على الكلام (ASR) التي تركز على الإملاء فقط، يستهدف هذا التحدي استعادة التشكيل، وهي مشكلة لغوية راسخة وغير محلولة في معالجة اللغة العربية؛ نظرًا إلى الغموض المعجمي، والتباين النحوي، وغياب التشكيل عن معظم النصوص المكتوبة.
وتُعدّ مهمة التشكيل التلقائي لنصوص الإملاء الصوتي من المهام اللغوية المعقّدة؛ نتيجة عدم التوافق بين النصوص الناتجة عن أنظمة التعرّف الآلي على الكلام، والنماذج التقليدية للتشكيل المعتمدة على النص فقط؛ إذ غالبًا ما تنتج أنظمة التفريغ الصوتي نصوصًا غير مُشكَّلة أو مُطبَّعة جزئيًا، في حين لا تستفيد نماذج التشكيل النصي من المعلومات الصوتية. وتهدف هذه المهمة المشتركة إلى معالجة هذه الفجوة من خلال التركيز على التشكيل المعتمد على الصوت.
وتتضمن المهمة المشتركة مهمتين فرعيتين:
على المشاركين التسجيل في الرابط الآتي:
https://forms.office.com/r/KF4bvNNASP?origin=lprLink
تتكون مجموعة البيانات من نحو خمس ساعات من التسجيلات الصوتية باللغة العربية، جُمعت عبر منصة الجدارية الصوتية، وهي منصة جماعية لتجميع البيانات الصوتية طوّرها مجمع الملك سلمان العالمي للغة العربية. وقد جُمعت من متحدثين ذكور وإناث من اللهجات المختلفة: السعودية، والمصرية، والكويتية، والبحرينية، والسودانية، والقطرية، والجزائرية، والسورية، والفلسطينية.
تتسم جميع المقاطع الصوتية بقِصر مدتها؛ إذ لا تتجاوز تسع ثوانٍ للمقطع الواحد، وذلك دعمًا لدقة المواءمة بين الصوت والنص، وتحسين أداء التشكيل التلقائي. وتشمل التسجيلات مجالاتٍ موضوعيةً متعددةً، وخضعت لعمليات تحقق آلية، ومراجعات يدوية؛ لضمان جودة الصوت، ودقة التفريغ النصي.
شملت عملية التوسيم (Annotation) مواءمة التسجيلات الصوتية مع النصوص المكتوبة، والتحقق من صحة التشكيل. وقد نُفِّذت خطوات متعددة لضمان الجودة، تضمنت: توحيد الملفات الصوتية، ووضع تسميات معيارية، وإجراء مراجعات يدوية للتشكيل؛ لضمان الاتساق والموثوقية.
المهمة الأولى: الإسهام بالبيانات:
يُطلب من كل فريق تقديم ساعة واحدة على الأقل من البيانات الصوتية. وتخضع جميع التسجيلات المقدَّمة لعمليات تحقق آلية، تليها مراجعة يدوية يجريها عضو آخر من الفريق نفسه، وذلك وفق دليل تقييم موحّد يُوفَّر لجميع المشاركين.
ويتعين على المشاركين التزام إرشادات التفريغ النصي والتشكيل المعتمدة؛ لضمان الاتساق بين المحتوى الصوتي والتمثيل النصي.
وبعد اعتماد التسجيلات، ستُتاح البيانات المجمَّعة لجميع الفرق المشاركة؛ دعمًا لعدالة المقارنة المعيارية، وتشجيعًا على النمو المستمر لمجموعة البيانات وتنوّعها.
يُطلب من المشاركين في هذه المهمة بناء أنظمة تستقبل المقطع الصوتي والنص غير المُشكَّل بوصفهما مدخلات، وتنتج نصًّا عربيًا مُشكَّلًا بالكامل.
وتتطلب المهمة التنبؤ بجميع علامات التشكيل العربية على مستوى الحرف، بما في ذلك: الفتحة، والضمة، والكسرة، والسكون، والشدة، والتنوين، لكل حرف في النص غير المُشكَّل.
يوضّح الجدول الآتي بنية بيانات الإدخال والإخراج الخاصة بالمهمة:
|
|
مقطع صوتي |
المدخلات: |
|
أريد أن أشرب كوبًا من الشاي |
النص غير المُشكَّل |
|
|
أُرِيدُ أَنْ أَشْرَبَ كُوبًا مِنَ الشَّاي |
النص المُشكَّل |
المخرجات: |
المهمة الأولى:
سيُقيَّم الإسهام بالبيانات بناءً على مدة التسجيلات الصوتية وجودتها، وفق المعايير الآتية:
المهمة الثانية:
تُقيَّم الأنظمة باستخدام ثلاثة مقاييس متكاملة:
ويُعدّ معدل الخطأ على مستوى الكلمة (WER) المقياس الرئيس في التقييم؛ إذ يتطلب صحة التشكيل الكامل للكلمة؛ مما يجعله أكثر صرامةً في قياس أداء الأنظمة. وتُعرض مقاييس DER)) و (SER) بوصفها مقاييس مكمّلة؛ لإتاحة تحليل أكثر تفصيلًا على مستوى الحرف والجملة.
ولضمان تقييم شامل وشفاف؛ تُعرض النتائج وفق إعدادين للتقييم يعكسان مستوياتٍ مختلفةً من الصعوبة اللغوية:
ويمثل الإعراب (نهايات الكلمات) أكثر جوانب التشكيل في اللغة العربية تحدّيًا؛ لاعتماده المباشر على السياق التركيبي والدلالي للجملة.
نوفّر نظامين أساسيين (Baseline) يتوافقان مع مساري المشاركة في المهمة. وتُقدَّم هذه الأنظمة بوصفها تطبيقاتٍ مرجعيةً لشرح إعداد المهمة وآلية التنفيذ، دون أن تكون مُحسّنةً لتحقيق أفضل أداء.
وتُعرض نتائج الأنظمة الأساسية وفق إعدادي التقييم المذكورين أعلاه؛ لبيان أثر احتساب الإعراب (نهايات الكلمات) في أداء الأنظمة.
|
نص + تعرف آلي على الكلام (محسَّن بالضبط الدقيق) |
نص فقط |
نص + تعرف آلي على الكلام |
إعداد التقييم (٪) |
|||||||
|
SER |
WER |
DER |
SER |
WER |
DER |
SER |
WER |
DER |
||
|
90.77 |
36.60 |
10.70 |
95.00 |
54.21 |
19.38 |
86.54 |
47.96 |
16.16 |
باحتساب الإعراب |
اعتبار الحروف غير المشكَّلة |
|
76.92 |
21.35 |
7.47 |
85.38 |
32.07 |
13.49 |
79.62 |
28.22 |
10.98 |
دون احتساب الإعراب |
|
|
89.23 |
34.32 |
12.04 |
94.62 |
51.44 |
22.28 |
83.08 |
43.33 |
17.57 |
باحتساب الإعراب |
تجاهل الحروف غير المشكَّلة |
|
73.85 |
18.39 |
7.78 |
82.31 |
27.29 |
14.35 |
73.08 |
22.21 |
10.72 |
دون احتساب الإعراب |
|
* القيم الأقل هي الأفضل.
يجب على المشاركين إنتاج نص مُشكَّل بالكامل. ستتبع المخرجات صيغة (JSON) مبسَّطة (تُنشر ضمن الحزمة النهائية للبيانات).
|
[ { "id": "utt_00123", "text_diacritized": "النص المُشَكَّل هنا" }, { "id": "utt_00124", "text_diacritized": "هَذا نَصٌّ مُشَكَّلٌ آخَر" } ] |
نسعد بالإعلان عن الجوائز المخصصة للمهمة المشتركة في مؤتمر(LREC 2026) . ستنال أعلى الفرق ترتيبًا فيs كل مهمة الجوائز المالية الآتية:
المهمة (1): الإسهام بالبيانات:
المهمة (2): التشكيل التلقائي لنصوص الإملاء الصوتي:
سيُحدَّد الفائزون وترتيبهم وفقًا لمعايير التقييم المحددة لكل مهمة، آملين التوفيق لجميع الفرق، ومتطلعين إلى إعلان الفائزين في ختام سباق هذه المهمة المشتركة!
البريد: aalwazrah@ksaa.gov.sa , ralrasheed@ksaa.gov.sa