تقدّم مهمة (KSAA-2026) المشتركة معيارًا جديدًا متعدد الوسائط يهدف إلى تحويل نصوص الكلام العربي الخام إلى نصوص مكتوبة مُشكَّلة بالكامل. وعلى عكس مهام التعرّف الآلي على الكلام (ASR) التي تركز على الإملاء فقط، يستهدف هذا التحدي استعادة التشكيل، وهي مشكلة لغوية راسخة وغير محلولة في معالجة اللغة العربية؛ نظرًا إلى الغموض المعجمي، والتباين النحوي، وغياب التشكيل عن معظم النصوص المكتوبة.
وتتضمن المهمة المشتركة مهمتين فرعيتين:
ويشمل المعيار حاليًّا (5) ساعاتٍ من الكلام باللغة العربية الفصحى، وبلهجات عربية متعددة، وسيواصل التوسع بمشاركات المجتمع البحثي.
على المشاركين التسجيل في الرابط الآتي:
https://forms.office.com/r/KF4bvNNASP?origin=lprLink
تتكون البيانات من (5) ساعاتٍ من التسجيلات الصوتية باللغة
العربية، جُمعت من متحدثين ذكور وإناث من اللهجات المختلفة:
السعودية، والمصرية، والكويتية، والبحرينية، والسودانية،
والقطرية، والجزائرية، والسورية، والفلسطينية.
تتسم الجمل بأنها قصيرة (حوالي (9) ثوانٍ للجملة الواحدة)،
وتشمل مجالاتٍ متنوعةً: السياسة، والرياضة، والاقتصاد،
والأخبار، والدين.
شملت عملية التوسيم (Annotation) مواءمة الصوت مع النصوص المكتوبة، وضمان سلامة التشكيل. وقد نُفِّذت خطوات متعددة لضمان الجودة، تضمنت: توحيد الملفات، ووضع تسميات معيارية، ومراجعات يدوية للتشكيل؛ لضمان الاتساق والموثوقية.
ويُطلب من كل فريق تقديم ساعة واحدة على الأقل من التسجيلات، على أن تخضع جميع التسجيلات لفحوصات آلية ومراجعة يدوية يجريها عضو آخر من الفريق نفسه.
ولضمان الشفافية والاتساق؛ سيُزوَّد المشاركون بمعيار موحّد
للمراجعة اليدوية.
وبعد اعتماد التسجيلات ستُتاح البيانات المجمَّعة لجميع الفرق
المشاركة لضمان العدالة. وسيُكرَّم المشاركون الذين يحققون
أكبر حجم من التسجيلات عالية الجودة، وأدق مستوى للتشكيل؛
تعزيزًا لتوسيع البيانات، وتنوع اللهجات والمتحدثين.
المهمة الأولى: الإسهام بالبيانات:
يجب على كل فريق تقديم ساعة واحدة على الأقل من الكلام العربي، وتخضع التسجيلات للفحص الآلي والمراجعة اليدوية من عضو آخر في الفريق.
المهمة الثانية: التشكيل التلقائي لنصوص الإملاء الصوتي:
تعاني أنظمة التشكيل النصي من الأخطاء غالبًا عند تطبيقها على
نصوص ناتجة عن التفريغ الصوتي؛ بسبب اختلاف النطق والأسلوب،
إضافةً إلى أن أنظمة التعرف الآلي على الكلام نادرًا ما تنتج
نصوصًا مُشكَّلةً بدقة.
تستهدف هذه المهمة سد هذه الفجوة بإلزام المشاركين ببناء أنظمة
تستفيد من الصوت والنص غير المُشكَّل لإنتاج نص مُشكَّل
بالكامل، وسيُزوَّد المشاركون بعينة توضح بنية الإدخال
والإخراج. والمطلوب هو: إضافة التشكيل لكل حرف في النص غير
المُشكَّل.
|
|
مقطع صوتي |
المدخلات: |
|
أريد أن أشرب كوبًا من الشاي |
النص غير المُشكَّل |
|
|
أُرِيدُ أَنْ أَشْرَبَ كُوبًا مِنَ الشَّاي |
النص المُشكَّل |
المخرجات: |
المهمة الأولى:
سيُقيَّم إسهام البيانات بناءً على مدة التسجيلات الصوتية المقدَّمة وجودتها:
المهمة الثانية:
ستُقيَّم النماذج باستخدام المقاييس التالية:
يتوفر مساران للتقييم، هما:
باستخدام أداة (كامل) التي تستقبل النصوص غير المشكَّلة، وتنتج نصوصًا مُشكَّلةً.
باستخدام نموذج(LSTM) (Shatnawi et al., 2024) الذي يدمج الإشارات الصوتية مع مخرجات (ASR) والنصوص غير المشكَّلة؛ لتحسين التشكيل.
|
DER |
CER |
WER |
النموذج |
|
35.80% |
19.86% |
85.36% |
أدوات كامل (نصوص فقط): |
|
قريبًا |
قريبًا |
قريبًا |
نموذج LSTM (نصوص ومقاطع صوتية): |
يجب على المشاركين إنتاج نص مُشكَّل بالكامل. ستتبع المخرجات صيغة (JSON) مبسَّطة (تُنشر ضمن الحزمة النهائية للبيانات).
|
[ { "id": "utt_00123", "text_diacritized": "النص المُشَكَّل هنا" }, { "id": "utt_00124", "text_diacritized": "هَذا نَصٌّ مُشَكَّلٌ آخَر" } ] |
يسعدنا الإعلان عن الجوائز المخصصة للمهمة المشتركة في مؤتمر(LREC 2026) . ستنال أعلى الفرق ترتيبًا في كل مهمة الجوائز المالية الآتية:
المهمة (1): الإسهام بالبيانات:
المهمة (2): التشكيل التلقائي لنصوص الإملاء الصوتي:
سيُحدَّد الفائزون وترتيبهم وفقًا لمعايير التقييم المحددة لكل مهمة، آملين التوفيق لجميع الفرق، ومتطلعين إلى إعلان الفائزين في ختام سباق هذه المهمة المشتركة!
البريد: aalwazrah@ksaa.gov.sa , ralrasheed@ksaa.gov.sa