مرصد حوسبة العربيَّة هو أداة تحليليَّة ومرجعيَّة تسعى إلى توثيق تطوُّرات هذا المجال الحيوي ورصدها، ويهدف التَّقرير الأوَّل للمرصد إلى تقديم رؤية عامَّة عن حالة المعالجة الآليَّة للُّغة العربيَّة حتى نهاية عام (٢٠٢٤م)، تشمل: الموارد اللُّغويَّة والبيانات، والأدوات التقنيَّة، والنَّماذج اللُّغويَّة الكبيرة، ومؤشرات تقييم النَّماذج، ومجالات البحث والتَّطوير، والتَّعليم والتَّدريب، والتَّحديات والفرص المستقبليَّة.
تمثِّل اللُّغة العربيَّة بثرائها الصَّرفي وتنوُّع لهجاتها ركيزةً رئيسةً في الموروث الثَّقافي والدِّيني للأمَّة العربيَّة والإسلاميَّة، فهي لغة القرآن الكريم والسُّنة النَّبويَّة، وتحمل في طيَّاتها جوهر التُّراث الفكري والأدبي للعالم العربي. ومع ظهور تقنيات الذَّكاء الاصطناعي والنَّماذج اللُّغويَّة الكبيرة، تبرز الحاجة إلى جهود موحَّدة؛ لتطوير أنظمة حاسوبيَّة فاعلة وقادرة على فهم اللُّغة العربيَّة وإنتاجها؛ لضمان بقاء هُويَّتها في المستقبل الرَّقمي.
تُظهر أدوات معالجة اللُّغة العربيَّة الطبيعيَّة تقدُّمًا كبيرًا في تطوير حلول متقدِّمة للتَّحليل النَّحوي، والتَّشكيل، والتَّعرُّف إلى الكيانات المُسمَّاة، ورغم ذلك تعاني هذه الأدوات فجوات واضحةً، مثل: محدوديَّة دعم اللَّهجات العربيَّة، ونقص التَّراخيص. وتشكِّل المصادر المفتوحة غالبيَّة هذه الأدوات، التِّي تعزِّز الابتكار المجتمعي، إلا أنَّ الحاجة إلى تعاون أكبر بين المؤسَّسات الأكاديميَّة والصناعيَّة باتت ضروريَّةً؛ لدفع عجلة التَّطوير، وتعزيز الشُّموليَّة اللُّغويَّة.
تُعَدُّ البيانات اللُّغويَّة العربيَّة عنصرًا مهمًّا لدفع عجلة الابتكار في تطبيقات الذَّكاء الاصطناعي، مثل: التَّرجمة الآليَّة، وتحليل المشاعر، والتَّعرُّف إلى اللهجات، ولكنَّ نقص البيانات المُوَسَّمَة بجودة عالية وعدم توفُّر التَّراخيص الواضحة يعوقان تقدُّم هذه التِّقنيات، ويتطلَّب سدُّ هذه الفجوة تحسين توثيق البيانات، واعتماد سياسات تراخيص مفتوحة، وتطوير أدوات ذكاء اصطناعي متقدِّمة؛ لتوسيم البيانات بدقَّة، مع أخذ التَّنوُّع اللَّهجي والثَّقافي للُّغة العربيَّة بعين الاعتبار.
تمثِّل النَّماذج اللُّغويَّة العربيَّة محورًا حيويًّا لتطبيقات الذَّكاء الاصطناعي، لكنَّ تطوُّرها يعاني تحدِّيات جوهريَّة، أبرزها: تشتُّت الجهود البحثيَّة، ومع ذلك تقدِّم هذه التحدِّيات فرصةً لتوحيد الجهود الإقليميَّة؛ للاستثمار في بناء بنية تحتيَّة رقميَّة متقدِّمة، ودعم المبادرات البحثيَّة المشتركة، وتبادل الخبرات بين الأطراف المختلفة.
رغم التَّطور الملموس في النَّماذج اللُّغويَّة العربيَّة، فإنَّ غياب معايير التَّقويم الشَّاملة والدَّقيقة والشَّفافة يحدُّ من قدرتها على تقديم أداء متميز مقارنةً بالنَّماذج متعدِّدة اللُّغات، وتشمل هذه التحدِّيات: الاعتماد على نصوص مترجمة، وغياب تمثيل شامل للَّهجات. وتبرز الحاجة إلى تطوير مؤشِّرات تقويم مخصَّصة ومبنيَّة على بيانات أصلية؛ لتوسيع مدى الابتكار، وتمكين النَّماذج اللُّغويَّة من تقديم أداء يلبِّي احتياجات المستخدمين في المجالات المختلفة.
تُظهر الإحصاءات فجوةً بين أبحاث اللُّغة العربيَّة ونظيراتها في اللُّغات الأخرى، سواءً من حيث الكمَّ، أو من حيث التَّركيز على الموضوعات الحديثة، كالنَّماذج اللُّغويَّة الكبيرة. ولتحقيق تقدُّم حقيقي في أبحاث المعالجة الآليَّة للُّغة العربيَّة وتقنياتها؛ يلزم إنشاء منصَّات إقليميَّة تعاونيَّة تربط المؤسَّسات البحثيَّة والصناعيَّة العربيَّة، مع التركيز على توحيد الجهود؛ لبناء موارد موثَّقة مفتوحة المصدر تغطِّي التَّنوُّع اللُّغوي والثَّقافي.
لا تزال البرامج الأكاديميَّة المختصَّة محدودةً؛ ممَّا يعوق تطوُّر القدرات البشريَّة في هذا المجال، ومع نموِّ الطَّلب على الذَّكاء الاصطناعي ومعالجة اللُّغات؛ تزداد الحاجة إلى تطوير مسارات تعليميَّة تشمل حوسبة اللُّغة العربيَّة في المرحلة الجامعيَّة والدِّراسات العليا، إضافةً إلى مبادرات تعليميَّة لتأهيل الطُّلاب منذ مرحلة التَّعليم الثانوي.
تواجه المعالجة الآليَّة للُّغة العربيَّة تحديات هيكليَّةً تعوق تطوُّرها، أبرزها: نقص البيانات المُوَسَّمَة عالية الجودة، والقصور في الأدوات المختصَّة، وضعف التَّعاون بين الأوساط البحثيَّة والصناعيَّة، وتمثِّل هذه التحدِّيات فجوةً في البنية التحتيَّة التقنيَّة، والقدرات البشريَّة المختصَّة؛ ممَّا يحدُّ من فاعليَّة الأبحاث والتَّطبيقات. ولتحقيق تقدُّم حقيقي؛ يتطلَّب المستقبل إستراتيجيَّةً شاملةً، ترتكز على تطوير بيانات مُوَسَّمَة تغطِّي التَّنوُّع اللُّغوي والثَّقافي للُّغة العربيَّة، بما في ذلك: اللَّهجات، والنُّصوص المختصة، وإضافةً إلى ذلك، يُنصَح بتحسين الأدوات البرمجيَّة، وتعزيز مشروعات البحث المشترك التي تربط الجامعات بالصِّناعة، مع توفير تمويل مستدام؛ لتسريع الابتكار، وتحويل الأبحاث إلى تطبيقات عمليَّة؛ إذ تُسهِم هذه الجهود المشتركة في بناء منظومة تقنيَّة متكاملة تخدم اللُّغة العربيَّة، وتوسِّع نطاق استخدامها في المجالات التقنيَّة المختلفة.
يواجه اللِّسانيُّون المهتمُّون بحوسبة العربيَّة إشكالاتٍ في متابعة أحدث التَّطورات في المجال؛ لأسباب عديدة، منها: اختلاف المصطلحات المستخدَمة، واختلاف الخلفيَّات الثَّقافيَّة بين اللِّسانيِّين والحاسوبيِّين، وغير ذلك، ويواجه الحاسوبيُّون المهتمُّون ببناء البيانات اللُّغويَّة صعوبةً في الاستفادة من المختصِّين اللُّغويِّين؛ لأسباب عديدة، منها: قلَّة المختصِّين، واختلاف المنهجيَّات وأدلَّة التَّوسيم. وهنا تبرز الحاجة إلى برامج مشتركة بين الجهتين؛ لبناء نماذج، وأدوات، وبرامج تدريبيَّة، وإلى تكثيف الدَّورات التَّدريبيَّة في مجال توسيم البيانات اللُّغويَّة وفقًا للمنهجيَّات المتَّبعة في تطوير تقنيات الذَّكاء الاصطناعي.
تواجه المعالجة الآليَّة للُّغة العربيَّة تحدِّيًا يتمثَّل في ميل المهتمِّين بها إلى استعمال اللُّغة الإنجليزيَّة عادةً في توثيق أعمالهم، وعرض أبحاثهم، وتقديم دوراتهم؛ وذلك لارتباط أبحاث الذَّكاء الاصطناعي باللُّغة الإنجليزيَّة؛ ممَّا يسبِّب إشكالاتٍ متعدِّدةً في فهم المقصود بجوانب التَّحليل اللُّغوي. وهنا تبرز الدَّعوة إلى تكثيف الجهود الرَّامية إلى تعريب هذا العلم المهمّ، وتوحيد مصطلحاته، وزيادة المحتوى العربي فيه.
يعرض هذا الفصل المفاهيم الرَّئيسة في المعالجة الآليَّة للُّغة العربيَّة، بما في ذلك التَّحدِّيات، مثل: الغنى الصَّرفي، وتعدُّد اللَّهجات، ويناقش أيضًا أساليب النَّمذجة اللُّغويَّة، والتَّطوُّرات التَّاريخيَّة في المجال منذ الثَّمانينات حتَّى الآن.
يظهر الرَّسم البيانيُّ التَّطوُّر التَّاريخيَّ لعدد الأبحاث المنشورة في مجال المعالجة الآليَّة للُّغة العربيَّة، ويُلاحَظ وجود مدَّة ثبات نسبيَّة في عدد الأبحاث من عام (1980م) حتى عام (2000م)؛ إذ لم يتجاوز العدد (3000) ورقةٍ بحثيَّةٍ. ومع بداية العقد الأوَّل من القرن الحادي والعشرين، شهد المجال قفزةً كبيرةً في عدد الأبحاث، مع زيادة واضحة في السَّنوات الأخيرة، حتى وصل العدد في عام (2024م) إلى أكثر من (10,000) ورقةٍ بحثيَّةٍ، وهذه الزِّيادة الهائلة تشير إلى النُّموِّ السَّريع في الاهتمام بالمعالجة الآليَّة للُّغة العربيَّة في التَّطبيقات الحديثة.
يظهر الرَّسم البيانيُّ تطوُّر التِّقنيات المستخدَمة في أبحاث المعالجة الآليَّة للُّغة العربيَّة من عام (2010م) حتى (2024م). تُلاحَظ بداية انتشار تقنيات التَّعلُّم العميق بوضوح منذ عام (2016م)؛ تزامنًا مع ظهور النَّماذج اللُّغويَّة الكبيرة (LLMS) التي أحدثت أثرًا بالغًا في مجالات الأبحاث؛ ممَّا قلَّل من الاعتماد على تقنيات الشَّبكات العصبيَّة الاصطناعيَّة. ومنذ عام (2019م) ازداد نموُّ النَّماذج اللُّغويَّة الكبيرة (LLMS) ازديادًا ملحوظًا بفضل تقنية المحوِّلات، ليصل إلى قمَّته في عام (2024م)، وهو ما يعكس هيمنة هذه النَّماذج في أبحاث المعالجة الآليَّة للُّغة العربيَّة حاليًّا.
يستعرض هذا الفصل تفصيل الأدوات التِّقنيَّة المستخدَمة في معالجة اللُّغة العربيَّة، مع تحليل لخصائصها العامَّة والتِّقنيَّة؛ لتقييم مدى فاعليَّتها، وقدرتها على معالجة التَّحدِّيات الخاصَّة باللُّغة العربيَّة، وتحديد الفجوات والمجالات التي تحتاج إلى مزيد من التَّطوير والاهتمام.
يظهر الرَّسم البيانيُّ توزيع أدوات المعالجة الآليَّة للُّغة العربيَّة بحسب المهام المختلفة. ويُلاحَظ أنَّ أدوات التَّحليل النَّحويِّ أكثرها استخدامًا في هذه المهام؛ إذ تتصدَّر القائمة بأكبر نسبة، تليها أدوات توليد النُّصوص، وأدوات التَّحليل الصرفيِّ، ويبيِّن ذلك أنَّ أغلب الأبحاث والممارسات الحاليَّة تركِّز على تحسين فهم البنيتين (النَّحويَّة والصَّرفيَّة) للُّغة العربيَّة، وتأتي في المراتب التَّالية: أدوات التَّعرُّف إلى الكلام الصَّوتيِّ، والتَّعرُّف الصَّوتي إلى الحروف؛ ممَّا يشير إلى ازدياد الاهتمام بتقنيات التَّعرُّف الصَّوتيِّ في المعالجة الآليَّة للُّغة العربيَّة.
يظهر الرَّسم البيانيُّ توزيع أدوات المعالجة الآليَّة للُّغة العربيَّة بحسب تاريخ نشرها، وتُلاحَظ محدوديَّة الأدوات في السَّنوات الأولى: (من 2016م، حتَّى 2020م)؛ إذ لم يتجاوز العدد في أيٍّ من هذه الأعوام (9) أدواتٍ، ثمَّ بدأ العدد يرتفع تدريجيًّا مع بداية عام (2021م)، حتَّى بلغ ذروته عام (2024م)؛ إذ نُشِرت فيه (32) أداةً، وهذا النُّمو الكبير يعكس ازدياد الاهتمام بتطوير أدوات المعالجة الآليَّة للُّغة العربيَّة.
يعرض الرَّسم البيانيُّ توزيع أدوات المعالجة الآليَّة للُّغة العربيَّة بحسب قابليَّة الوصول إلى رمز الاستجابة المباشر (الكود)؛ إذ يظهر أن غالبيَّة الأدوات هي مشروعات مفتوحة المصدر (75.0%)؛ ممَّا يعكس الاتجاه السَّائد في المجتمعين الأكاديميّ والصِّناعيّ، نحو الانفتاح والمشاركة، وتكمن أهميَّة هذا التَّوجُّه في تيسير الوصول إلى الأدوات؛ تعزيزًا للتَّعاون بين الباحثين والمطوِّرين. وفي المقابل توجد فجوة بين الأدوات المتاحة للأبحاث والمشروعات المغلقة، وهو ما يظهر في نسبة الأدوات المغلقة (15.2%)، وأدوات التَّواصل مع المالكين (9.8%).
يوضِّح الرَّسم البيانيُّ توزيع أدوات المعالجة الآليَّة للُّغة العربيَّة بحسب النَّاشر. ويظهر تطوير العديد من الجامعات ومؤسَّسات البحث لأدوات متقدِّمة لمعالجة اللُّغة العربيَّة، يأتي من بين تلك المؤسَّسات البارزة: معهد قطر لبحوث الحوسبة (QCRI)، ومختبر كامل (CAMEL Lab) التَّابع لجامعة (نيويورك أبو ظبي)، ومختبر سينا (SINA Lab) بجامعة (بيرزيت). وقد أسهمت هذه المؤسَّسات الأكاديميَّة بنسبة (41%) من الأدوات المتوفِّرة، بينما تولَّى الأفراد والمؤسَّسات التجاريَّة تطوير البقيَّة.
يعرض الرَّسم البيانيُّ توزيع دعم الأدوات للَّهجات العربيَّة، ويُظهر دعم أغلبها للفصحى الحديثة بنسبة (83%)، بينما تمثِّل الأدوات التي تدعم الفصحى التُّراثيَّة (31.3%)، في حين أنَّ دعم اللَّهجات العربيَّة المختلفة لا يزال في مرحلة التَّطوير؛ إذ تشير البيانات إلى أنَّ (25%) فقط من الأدوات تدعم اللَّهجات. ومع ذلك بدأت بعض الأدوات، مثل: (CAMEL Morph) تدعم عدَّة لهجات؛ ممَّا يعكس التَّوجُّه في توسيع نطاق أدوات المعالجة؛ لتشمل اللَّهجات المتنوِّعة.
يوضِّح الرَّسم البيانيُّ توزيع دعم الأدوات للَّهجات بحسب تنوُّع المهام، ويُلاحَظ أنَّ أدوات الفصحى الحديثة تتفوَّق في معظم المهام، خاصَّةً في أدوات التَّحليل النَّحويِّ، وأدوات التَّصنيف النَّصيِّ، وأدوات توليد النُّصوص. بينما تظهر اللَّهجات في الرَّسم البياني حضورًا أقلَّ من الفصحى الحديثة والفصحى التُّراثيَّة؛ رغم وجودها في بعض المهام، مثل: أدوات التَّصنيف النَّصيِّ، وأدوات التَّعرُّف إلى الكلام صوتيًّا؛ وهذا يظهر الحاجة إلى تطوير أدوات للَّهجات العربيَّة خاصَّةً في مجالات تحليل النُّصوص المتنوِّعة.
يظهر الرَّسم البيانيُّ توزيع أدوات المعالجة الآليَّة للُّغة العربيَّة بحسب لغة البرمجة المستخدَمة. وتتصدَّر لغة البرمجة بايثون (Python) المشهد بعدد (58) أداةً من الأدوات المدروسة؛ ممَّا يبرز هيمنتها الكبيرة في مجالات معالجة اللُّغات الطبيعيَّة وعلوم البيانات. تليها لغة جافا (Java) بعدد (13) أداةً، التي تُستخدَم في أكثر الأدوات رسوخًا في هذا المجال. أمَّا باقي اللُّغات، مثل: جافا سكربت (JavaScript) وسي بلس بلس (++C) وبيرل (Perl) فتمثِّل مجتمعةً نسبةً صغيرةً جدًّا من الأدوات؛ إذ تمثل مجتمعة (8) أدوات فقط، إضافةً إلى وجود بعض الأدوات التي لم تُذكَر فيها لغة البرمجة المستخدَمة.
يوضِّح الرَّسم البياني توزيع أدوات المعالجة الآليَّة للُّغة العربيَّة بحسب طريقة التَّفاعل معها. تعتمد معظم الأدوات على الويب (33.1%)، أو على المكتبات البرمجية (31.5%)، وهو ما يظهر التَّوجُّه نحو الحلول السَّحابيَّة التي تُيسِّر الوصول إليها. تليها أدوات واجهات سطر الأوامر (CLI) بنسبة (19.4%). وفي المقابل نجد أنَّ أدوات واجهات المستخدم الرُّسوميَّة (GUI) تشكِّل نسبةً ضئيلةً جدًّا (8.1%)؛ ما يشير إلى قلَّة استخدام هذه الأنماط في الأدوات المدروسة، وتمثِّل تطبيقات الهواتف المحمولة أقلَّ من (5%) من الأدوات.
يوضِّح الرَّسم البياني توزيع أدوات المعالجة الآليَّة للُّغة العربيَّة بحسب منصَّة الاستضافة. وتُلحَظ استضافة غالبيَّة الأدوات على منصَّة (قت هب) بنسبة (66.1%)؛ ممَّا يُيَسِّر الوصول إليها ومشاركتها مع الباحثين والمطورين، ثمَّ تليها الأدوات المُستضافَة على منصَّات الشَّبكة بنسبة (25.9%). أمَّا الأدوات المُستضافَة على منصَّات أخرى فتشكِّل نسبةً ضئيلةً هي: (8%).
يسلِّط هذا الفصل الضَّوء على أهميَّة البيانات في تحسين تطبيقات الذَّكاء الاصطناعي اللُّغويَّة، مع تصنيف أنواع البيانات ومصادرها، وتحليلها. تشمل هذه البيانات النُّصوص المكتوبة، والتَّسجيلات الصوتيَّة، والحوارات الطبيعيَّة، إضافةً إلى المعاجم وقواعد البيانات التي توضِّح معاني الكلمات، وتكرارها، واستخداماتها.
يوضِّح الرَّسم البياني عدد البيانات المنشورة منذ عام (2000م) حتَّى عام (2024م). وتُلاحَظ زيادة كبيرة في نشر البيانات منذ عام (2010م) حتَّى عام (2020م)؛ ممَّا يعكس زيادة الاهتمام بأبحاث تحليل محتوى منصَّة (X) ، التي كانت تركِّز على مجموعات البيانات والمهام المشتركة، ويتَّضح أيضًا ظهور نموذج بيرت (BERT) في المدَّة من (2017م) إلى (2020م)، وقد أسهم هذا النَّموذج في نشر العديد من مجموعات البيانات؛ إذ نُشِر أكبر عدد من البيانات في عام (2020م)، ومقدارها (86) مجموعة بيانات. في المقابل نشهد تناقصًا طفيفًا في عدد البيانات المنشورة بعد عام (2020م)؛ وذلك لصعوبة الوصول إلى الواجهة البرمجيَّة لمنصَّة (X)، التي كانت مصدرًا رئيسًا لبناء البيانات الموسَّمة.
يوضِّح الرَّسم البياني توزيع أكثر عشر مهام في البيانات اللُّغويَّة العربيَّة، ويُلاحَظ أنَّ (الترجمة الآليَّة) هي المهمة التي نُشِر لها أكبر عدد من مجموعات البيانات، ومقدارها (152) مجموعة بيانات، تليها مهمَّة (التَّعرُّف إلى الكلام) بـ (95) مجموعة، وتظهر مهام أخرى، مثل: (استرجاع المعلومات)، و(نموذج اللُّغة)، و(إنشاء النَّص) في مراتب متقدِّمة. ويتضِّح أنَّ الأبحاث في هذه المهام تتمحور بشكل رئيس حول التَّطبيقات العمليَّة، مثل: التَّرجمة، والتَّعرُّف إلى الكلام، بينما تُعَدُّ المهام الأخرى أقلَّ انتشارًا، ولكنَّها لا تزال مهمةً في تطوير التَّطبيقات.
يوضِّح الرَّسم البياني توزيع أبرز عشر مهام في البيانات اللُّغويَّة العربيَّة من عام (2020م) حتَّى عام (2024م). ويُلحَظ فيه زيادة الاهتمام بالبيانات المتعلِّقة بالتَّرجمة، وتحليل المشاعر (SA)، ونمذجة اللُّغة، وإجابة الأسئلة (QA)، وتحديد اللَّهجات، وتشير هذه النَّتيجة إلى زيادة التَّركيز على تطوير أدوات قادرة على التَّعامل مع تحديات لُغويَّة معقَّدة.
يوضِّح الرَّسم البياني توزيع البيانات بحسب تصنيفها. لُوحِظ أنَّ غالبيَّة البيانات (199 مجموعة بيانات) استُخلِصت من وسائل التَّواصل الاجتماعي، وهو ما يدلُّ على أهميَّة هذه المنصَّات، وكونها مصدرًا رئيسًا للبيانات المستخدَمة في أبحاث المعالجة الآليَّة للُّغة العربيَّة، وتوجد أيضًا بعض البيانات التي جُمِعت من مصادر أخرى، مثل: المقالات الإخبارية، ومقالات صفحة (ويكيبيديا)، وصفحات الشَّبكة، إضافةً إلى ملفات صوتيَّة، ومراجعات، وتعليقات من المواقع ذات الصِّلة، ويسهم تنوُّع البيانات في إثراء الأبحاث واختبارات النَّماذج.
يوضِّح الرَّسم البياني توزيع البيانات بحسب تعدُّد اللُّغات الموجودة فيها. نلاحظ أن حوالي (36%) من البيانات متعدِّدة اللُّغات؛ إذ تحتوي على أكثر من لغة، مثل تلك المستخدَمة في التَّرجمة، وهذا يشير إلى زيادة اهتمام المجتمع البحثي بإدراج اللُّغة العربيَّة في مجموعات بيانات متعدِّدة اللُّغات؛ ممَّا يعزِّز تفاعلها مع لغات أخرى، ويعزِّز من استخدامها في تطبيقات متعدِّدة.
يوضِّح الرَّسم البياني توزيع البيانات بحسب اللَّهجات. تركِّز معظم البيانات على اللُّغة العربيَّة الفصحى؛ إذ تظهر مجموعات بيانات كبيرة للفصحى الحديثة، ويظهر أيضًا أنَّ اللَّهجة المصريَّة هي الأكثر انتشارًا، تليها اللَّهجات الأخرى، مثل: اللَّهجة الخليجيَّة. من ناحية أخرى، تُلَاحظ قلَّة الاهتمام ببعض اللَّهجات، مثل: اللَّهجات الموريتانيَّة، والجيبوتيَّة، والصُّوماليَّة، ويُلاحَظ أيضًا وجود مجموعات بيانات مختلَطة تحوي أكثر من لهجة، تُستخلَص غالبًا من وسائل التَّواصل الاجتماعي، وتشير البيانات أيضًا إلى تصنيف خاصٍّ للبيانات المتعلِّقة ببلاد الشَّام والمغرب العربي.
يوضِّح الرَّسم البياني التَّراخيص المستخدَمة في البيانات اللُّغويَّة العربيَّة. ويظهر أنَّ ثلث مجموعات البيانات تقريبًا لا تحتوي على رخص واضحة؛ ممَّا يشكِّل عقبةً كبيرةً أمام إمكانيَّة استخدام هذه البيانات قانونيًّا. بعد ذلك تأتي البيانات المستخلصة من موقع (LDC)، التي تحتوي على رخص مدفوعة تتطلَّب اشتراكًا للوصول إلى قواعد بيانات مختلفة، ونلاحظ استخدام رخصة (CC BY 4.0) في العديد من البيانات، وهي رخصة مفتوحة تفرض الالتزام بحقوق النَّاشر الأصلي للبيانات، إضافةً إلى حوالي (40) رخصةً مخصَّصةً عدَّلها المؤلِّفون، وفي هذا إشارة إلى أهميَّة توثيق المعلومات القانونيَّة المتعلِّقة بالتَّراخيص؛ إذ إنَّ غياب التَّوثيق الواضح في (30%) من البيانات يشكِّل تحديًا في مشاركة البيانات واستخدامها.
يوضِّح الرَّسم البياني توزيع مجموعات البيانات اللُّغويَّة العربيَّة حسب المستودعات المستخدَمة. نلاحظ أنَّ أكثر من ربع البيانات رُفِعت على منصَّة (قت هب)، يليه مستودع (LDC) الذي يحتوي على بيانات مدفوعة، ويظهر أيضًا ازدياد الاهتمام بمستودع (Hugging Face) الذي يوفِّر سهولة رفع البيانات كبيرة الحجم، ونلاحظ وجود مستودعات خاصَّة ببعض المجموعات البحثيَّة، مثل: معهد قطر لبحوث الحوسبة (QCRI)، ومختبر (CAMEL Lab)، وقد برزت هذه المؤسَّسات في نشر البيانات المتعلِّقة بالمجالات البحثيَّة المختلفة.
يوضِّح الرَّسم البياني طرق إنشاء مجموعات البيانات. ويُلاحَظ أنَّ الغالبيَّة العظمى من البيانات (330 مجموعة) جُمِعت من خلال سحب البيانات من الشَّبكة (Web Scraping). تليها البيانات التي جُمِعت يدويًّا (64 مجموعة)، وهي أقلُّ عددًا؛ ممَّا يعكس التَّحديات المرتبطة بالجمع اليدوي. أمَّا البيانات التي تُرجِمت من لغات أخرى (حوالي 51 مجموعة)، فقد جُمِعت من خلال مختصِّين، أو عبر التَّرجمة الآليَّة. إنَّ نقص المصادر المفتوحة للبيانات العربيَّة يدفع الباحثين إلى إنشاء مجموعات بياناتهم الخاصَّة؛ ممَّا يزيد التَّكلفة الزمنيَّة والماليَّة. وغالبية البيانات تفتقر إلى بيانات وصفيَّة مكتملة؛ ممَّا يجعل تقييم الجودة أمرًا معقَّدًا.
يستعرض الرَّسم البياني توزيع عدد الكلمات في منصَّة (فَلَك). من بين هذه المدونات، تحتوي (المدونة العربيَّة) على أكبر عدد من الكلمات؛ إذ يقرب عددها مليار ومئة كلمة، بواقع تسعة ملايين كلمة فريدة، تليها (مدونة المجمع للُّغة العربيَّة المعاصرة) التي تحتوي على ما يقرب من ثلاثمئة مليون كلمة، بواقع مليوني كلمة فريدة. وتجدر الإشارة إلى أنَّ المدونات تحتوي على بيانات نصيَّة فقط، باستثناء مدونة (نَقْش)، التي تحتوي على بيانات نصيَّة ومرئيَّة جُمِعت من (41) محافظةً في المملكة العربيَّة السُّعوديَّة.
يناقش هذا الفصل تطوُّر النَّماذج اللُّغويَّة المستخدَمة في توليد النُّصوص العربيَّة وتحليلها، مع استعراض تاريخ تطوُّرها منذ عام (2020م)، مركِّزًا على النَّماذج اللُّغويَّة العربيَّة، بدءًا من تطوُّراتها الحديثة، وصولًا إلى التَّطبيقات التي أحدثت نقلةً نوعيَّةً في المجالات المختلفة، ويعرض الابتكارات التقنيَّة التي عزَّزت فهم اللُّغة العربيَّة، ومعالجتها.
يوضِّح الرَّسم البياني توزيع النَّماذج بحسب نوعها على . موقع .(HuggingFace) تركِّز (38%) من النَّماذج على مهمَّات توليد النُّصوص، ويظهر أنَّ هناك حوالي (90) نموذجًا مخصَّصًا لقياس درجة التَّشابه بين النُّصوص المختلفة. وتتنوَّع بقية المهمَّات بين التَّرجمة، والتَّصنيف النَّصي، ونماذج إعادة الصِّياغة، وغيرها من المهمَّات المتخصِّصة.
يوضِّح الرَّسم البياني عدد النَّماذج بحسب معماريَّتها من عام (2020م) إلى عام (2024م). شهدت المعماريَّة (Decoder) تطوُّرًا ملحوظًا في عام (٢٠٢٤م)؛ إذ نُشِرت (٨) نماذج. بينما كانت المعماريَّة (Decoder) هي الأكثر استخدامًا في عام (٢٠٢١م)؛ إذ نُشِرت (٦) نماذج، ثمَّ تراجعت في السَّنوات التَّالية. أما المعماريَّة (Encoder) فقد ظهرت في عامي (٢٠٢٠م - ٢٠٢١م) بصورة محدودة، ولكنَّها لم تستمرْ في الزيادة كما في المعماريَّة .( Decoder) يعكس هذا التَّوجُّه زيادة الاهتمام في السَّنوات الأخيرة باستخدام النَّماذج (Decoder)، التي تحقِّق أداءً أفضل في العديد من التَّطبيقات اللُّغويَّة.
يوضِّح الرَّسم البياني عدد الأجزاء اللُّغويَّة يوضِّح الرَّسم البياني عدد الأجزاء اللُّغويَّة (Tokens) العربيَّة والإنجليزيَّة للنماذج العربيَّة (بالمليار). يحتوي نموذج جيس (Jais) على أكبر عدد من الأجزاء اللُّغويَّة بمجموع قدره (490) مليار جزء باللُّغة العربيَّة، و(980) مليار جزء باللُّغة الإنجليزية. يليه علَّام (ALLAM) الذي يحتوي على (540) مليار جزء باللُّغة العربيَّة، و(660) مليار جزء باللُّغة الإنجليزية. تحتوي النَّماذج الأخرى، مثل: (AraGPT) وياسمين(Jasmine) على عدد أقلَّ بكثير من الأجزاء اللُّغويَّة العربيَّة والإنجليزيَّة؛ ممَّا يظهر تنوُّع النَّماذج حسب مهمَّاتها واستخداماتها.
يوضِّح الرَّسم البياني تطوُّر النَّماذج اللُّغويَّة العربيَّة منذ عام (2020م) حتى عام (2024م) من حيث حجم البيانات المستخدَمة في تدريبها. يُلاحَظ أنَّ نموذج (BLOOM) هو الأكبر من حيث الحجم، باحتوائه على (176) مليار معامل (Parameters)، ويأتي بعده (CommandR+) بحجم (104) مليار معامل، وهو أكبر نموذج من حيث الحجم في عام (2020م)، وفي السنوات التَّالية، لُوحِظ الازدياد في حجم النَّماذج، مثل: (ArabianGPT) الذي وصل حجمه إلى (1.5) مليار معامل في (2021م)، وعلَّام (ALLAM) بحجم (70) مليار معامل في (2023م)، وبدأت تظهر النَّماذج الأخرى، مثل: (AraGPT2)، (AraT5)، وقارب(QARIB) بأحجام أصغر، ولكنَّها شهدت أيضًا زيادةً تدريجيَّةً في السَّنوات الأخيرة.
يركِّز هذا الفصل على مؤشِّرات تقويم النَّماذج اللُّغويَّة الكبيرة الخاصَّة باللُّغة العربيَّة، مع تحليل لوح الصَّدارة والمزايا التي توفرها هذه المؤشِّرات، ويستعرض أساليب تطوير المؤشِّرات، وتصنيفات المهام والنَّماذج المُقيَّمة، ويتناول مجموعات البيانات المستخدَمة في التَّقويم، مع استبعاد النَّماذج متعدِّدة اللُّغات، غير المخصَّصة للعربيَّة.
يوضِّح الرَّسم البياني توزيع عدد مؤشِّرات تقويم النَّماذج اللُّغويَّة الكبيرة من عام (2020م) حتَّى عام (2024م). تظهر زيادة ملحوظة في عدد المؤشِّرات بدءًا من عام (2021م)؛ إذ نما العدد تدريجيًّا حتى وصل إلى (9) مؤشِّرات في عام (2024م). وشهدت السَّنوات السَّابقة (2020م-2022م) تباطؤًا في تطوير مؤشِّرات تقويم النَّماذج اللُّغويَّة الكبيرة، ولكن في السَّنوات الأخيرة توجَّهت المزيد من الجهود نحو تطوير هذه المؤشِّرات؛ للإسهام في تحسين تقويم النَّماذج تقويمًا أكثر دقَّةً وفاعليَّةً.
يوضِّح الرَّسم البياني توزيع الدُّول في الجزء الخاص باللَّهجات من بيانات مؤشِّر أرجن (ARGEN). تظهر السُّعوديَّة في مقدِّمة اللَّهجات بـ (15.27)، تليها مصر بـ (13.69)، ثمَّ البحرين بـ (13.47). بينما تتراجع بعض الدُّول الأخرى في المؤشِّر، مثل: المغرب الذي سجَّل (0.55) فقط من مجموع البيانات.
يوضِّح الرَّسم البياني تصنيف مجموعات المهام والبيانات في مؤشِّر أوركا (ORKA). ويحوي المؤشِّر (7) مهمَّاتٍ رئيسةٍ، موضَّحة في الشكل (3). تحتوي مهمَّة تصنيف الجمل على: (تحليل المشاعر (SA)، والمعنى الاجتماعي (SM)، وإكمال الحوار (Dia-C)، وتوليد استجابات الحوار(Dia-R)، وكشف تعطُّل الحوار (Dia-B)، وتنبؤ الادعاء (CL)، والتَّوليد الآلي (MG)). وتحتوي مهمَّة التنبؤ الهيكلي على: (وسم أقسام الكلام (POS)، والتَّعرُّف إلى الكيانات المسمَّاة (NER)). في حين تحتوي مهمَّة الاستدلال اللُّغوي على: (الاستنتاج اللُّغوي الطَّبيعي متعدِّد اللُّغات (XLNI)، والتَّحقُّق من الحقائق (FC))، وتحتوي مهمة التَّشابه الدلالي للنُّصوص على: (تشابه النُّصوص الدلالي (STS)، وتشابه النُّصوص الدلالي للأسئلة (QSTS). وتمثِّل القيمة بين قوسين عدد مجموعات البيانات في كلِّ مجموعة مهمَّات.
يوضِّح الرَّسم البياني تصنيف مجموعات المهمَّات في مؤشِّر دولفين .(Dolphine) وتتصدَّر الفصحى المعاصرة في مهمَّات، مثل: (التَّرجمة الآليَّة) و(الإجابة عن الأسئلة)، بينما تتصدَّر اللَّهجات ف في مهمَّات (التَّرجمة الآليَّة)، و(التَّبديل بين اللَّهجات).
يوضِّح الرَّسم البياني متوسط أداء النَّماذج المختلفة مقارنةً بأحدث النَّماذج الرَّائدة (SOTA)؛ إذ كانت (النَّماذج الرَّائدة) الأفضل أداءً بمتوسِّط نتيجة (0,7)، يليه نموذج التَّعلُّم بأمثلة قليلة (GPT-4) بمتوسط (0.68)، بينما كان أداء (Bloomz) الأقل بمتوسِّط (0.43).
يعرض الرَّسم البياني توزيع المستويات التَّعليميَّة والموضوعات المقابلة في مؤشِّر (ArabicMMLU). صُنِّفت الموضوعات بمرونة؛ إذ تعكس تنوُّع اهتمامات الأكاديميين والطلاب في المجالات المختلفة، وهذه التَّصنيفات مفيدة في عمليَّات البحث الأكاديمي، أو تخطيط المناهج الدراسيَّة.
يوضِّح الرَّسم البياني توزيع البيانات في مؤشر (بَلْسَم) عبر الفئات المحدَّدة. ويُلاحَظ أنَّ الفئات الكبرى، هي: (الكتابة الإبداعيَّة)، و(الإجابة عن السؤال)، و(التَّرجمة الآليَّة)؛ إذ تشكِّل جزءًا كبيرًا من الفئات الموجودة في المؤشِّر؛ ممَّا يعكس تركيزًا كبيرًا على المهمَّات المتعلِّقة بإنتاج النُّصوص الإبداعيَّة والأدبيَّة. وتظهر فئات أخرى أيضًا، مثل: (الملخص)، و(تلاعب النَّص)، و(تنفيذ البرنامج)، التي تمثِّل مهمَّاتٍ فرعيَّةً تُستخدَم في المعالجة الآليَّة للنُّصوص.
يستعرض هذا الفصل اتجاهات البحث العلمي في مجال المعالجة الآليَّة للُّغة العربيَّة، مثل: تطوُّر الأبحاث والمنشورات، وبراءات الاختراع، ويستعرض أيضًا المؤتمرات، وحلقات النِّقاش في مجال المعالجة الآليَّة للُّغة العربيَّة، ويُختَتم باستعراض الشَّركات والمؤسَّسات التقنيَّة في هذا المجال.
يوضِّح الرَّسم البياني تطور عدد الأبحاث المنشورة في مجال معالجة اللُّغة العربيَّة عبر عدَّة قواعد بيانات خلال المدَّة من (2014م) إلى (2024م). وشهد موقع جمعيَّة اللُّغويَّات الحاسوبيَّة (ACL) زيادةً كبيرةً في عدد الأبحاث المنشورة بدءًا من عام (2020م)؛ إذ ازداد العدد ازديادًا ملحوظًا ليصل إلى أكثر من (700) بحث في عام (2024م).
يوضِّح الرَّسم البياني تطور نسبة الأبحاث المهتمة باللُّغة العربيَّة من بين إجمالي الأبحاث بحسب موقع جمعيَّة اللُّغويَّات الحاسوبيَّة (ACL)؛ إذ بلغت نسبة الأبحاث المهتمة بالعربيَّة (2%) تقريبًا من إجمالي الأبحاث، وقد وصلت إلى أعلى قدر في عام (2022م).
يظهر الرَّسم البياني الأعمال البحثيَّة المرصودة في قاعدة بيانات (WOS)، ويتَّضح منه الازدياد الملحوظ للمقالات العلميَّة، والأبحاث المراجعة (Survey)، والوصول المبكِّر (Early Access) ، مع تراجع أعداد الأوراق العلميَّة، والكتب، والمواد التحريريَّة (Editorial).
يظهر الرَّسم البياني ازدياد الأبحاث بأنواعها كافَّةً على قاعدة بيانات (DBLP)، ولكنَّ الارتفاع الملحوظ يظهر في المقالات والبحوث غير الرَّسميَّة، التي تشمل أوراق العمل (Working Papers) التي تكون في مرحلة التَّطوير، أو التَّقارير الفنيَّة أو البحثيَّة الداخليَّة في الجامعات أو المؤسَّسات، أو المشاركات البحثيَّة في المنتديات، أو المنصَّات المفتوحة، مثل: (ARXIV).
يوضح الرَّسم البياني أهمَّ (10) موضوعات بحثيَّة في مجال معالجة اللُّغة العربيَّة عمومًا حتَّى عام (2024م). ويُلاحَظ أنَّ النَّماذج اللُّغويَّة من أكثر الموضوعات بروزًا في السَّنوات الخمس الأخيرة، مع ارتفاع كبير في أعداد الأبحاث المنشورة المتعلِّقة بها، وتظلُّ الموضوعات، مثل: (التَّعرُّف إلى المشاعر)، و(التَّعرُّف إلى الأعلام)، و(إجابة الأسئلة) ثابتةً نسبيًّا، إلا أنَّ الزيادة في الاهتمام ترتفع عمومًا في معظم الموضوعات البحثيَّة.
يوضح الرَّسم البياني توزيع الأبحاث في موقع جمعيَّة اللُّغويَّات الحاسوبيَّة (ACL) المتعلِّقة باللُّغة العربيَّة عبر عدَّة موضوعات رئيسة منذ عام (2014م) حتَّى (2024م). إنَّ موضوع (النَّماذج اللُّغويَّة) هو الأكثر نموًّا في السَّنوات الأخيرة، خاصةً في عامي (2023م - 2024م)؛ إذ سجَّل أعلى عدد من الأبحاث المنشورة، يليه (الترجمة الآليَّة)، و(التَّعرُّف إلى المشاعر)، بينما تظهر الموضوعات الأخرى، مثل: (التَّعرُّف إلى اللهجات)، و(التَّعرُّف إلى اللُّغة العدائيَّة) زيادةً ملحوظةً في الاهتمام بعد عام (2020م)، ويُلاحَظ أنَّ بعض الموضوعات مثل (التَّحليل الصَّرفي والنَّحوي)، و(التَّصنيف الآلي) قد شهدت تطوُّرًا ثابتًا، ولكنَّها لم تماثل معدَّلات النمو التي شهدتها الموضوعات الأكثر تخصُّصًا، مثل: (النَّماذج اللُّغويَّة).
يوضح الرَّسم البياني عدد طلبات براءات الاختراع المتعلقة بمعالجة اللُّغة منذ عام (2014م) حتَّى عام (2024م)، وبدأ العدد يرتفع ارتفاعًا ملحوظًا في عام (2021م)؛ إذ قُدِّمَت (10) طلبات، ويظهر أيضًا تراجع طفيف في السَّنوات الأخيرة (2023م-2024م)؛ إذ انخفض عدد الطلبات مرَّةً أخرى.
يناقش هذا الفصل وضع التَّعليم في مجال المعالجة الآليَّة للُّغة العربيَّة، ودوره في تطوير هذا المجال، ويحلِّل الدَّورات التَّدريبيَّة، والبرامج الأكاديميَّة، والفعاليَّات المُقامة، ثمَّ يستعرض الوظائف والشَّهادات المختصَّة بالمجال، ويُختَتم بمناقشة الفجوات في المحتوى التَّعليمي المُقدَّم، والحاجة إلى مزيد من التخصُّصات في هذا المجال.
يوضِّح الرَّسم البياني معدَّل التَّخصُّص في كليَّة علوم الحاسب مقارنةً بالتخصُّصات الأخرى (الطِّب والهندسة) على مدار عدَّة سنوات. يظهر أن تخصُّص الحاسب والمعلومات يشهد زيادةً ملحوظةً في معدل التَّخصيص بين الطُّلاب الذُّكور عبر السَّنوات مقارنةً بتخصصات (الطِّب والهندسة)، وهو ما يشير إلى زيادة اهتمام الطلاب بمجالات التَّقنية والمعلومات في السَّنوات الأخيرة، خاصَّةً في مجالات، مثل: علوم الحاسب، وهندسة الحاسب، وهندسة البرمجيَّات
يستعرض الرَّسم البياني توزيع عدد الطُّلاب المسجِّلين في الدَّورات التدريبيَّة والتعليميَّة المتعلِّقة بالذَّكاء الاصناعيِّ ومعالجة اللُّغة الطبيعيَّة بحسب مستوى الدَّورة التعليميَّة. يظهر أنَّ الدَّورة ذات المستوى المتوسِّط تستحوذ على النَّصيب الأكبر من التَّسجيلات ؛ إذ سجَّل ما يقرب من(700,792) طالبًا في هذا المستوى، وفي المقابل سجَّل حوالي(52,661) طالبًا في الدورات ذات المستوى المبتدئ، بينما سجَّل (26,675) طالبًا فقط في الدَّورات ذات المستوى المتقدِّم.
يوضح الرَّسم البياني توزيع الدَّورات التدريبيَّة والتعليميَّة المتعلقة بالذَّكاء الاصطناعي ومعالجة اللُّغة الطبيعية بحسب اللُّغة التي قُدِّمت بها. قُدِّمت (85,8%) من الدَّورات باللُّغة الإنجليزية، بينما كانت(14,2%) فقط من الدَّورات باللُّغة العربيَّة، ويعكس هذا التَّوزيع الفجوة الواضحة في توفُّر المحتوى التَّعليمي المتعلِّق بالذَّكاء الاصطناعي ومعالجة اللُّغة الطبيعية باللُّغة العربيَّة مقارنةً باللُّغات الأخرى، خاصَّةً الإنجليزيَّة، ويبرز أهميَّة تعزيز المحتوى باللُّغة العربيَّة في هذه المجالات؛ لتلبية احتياجات المتحدِّثين بالعربيَّة، وتوسيع نطاق التَّعلُّم في مجال حوسبة العربيَّة.
يوضح الرَّسم البياني توزيع الدَّورات التدريبيَّة والتعليميَّة المتعلِّقة بالذَّكاء الاصطناعي ومعالجة اللُّغة الطبيعيَّة بحسب المستوى. يظهر أنَّ حوالي(25%) من الدَّورات كانت ذات مستوى مبتدئ، بينما كانت(12%) منها ذات مستوى متقدم،، و(29%) كانت ذات مستوى متوسط، ويُلاحَظ أنَّ حوالي (34%) من الدَّورات لم يُحدَّد مستوى صعوبتها.
يستعرض الرَّسم البياني توزيع عدد الطُّلاب المسجِّلين في الدَّورات التدريبيَّة والتعليميَّة المتعلقة بالذَّكاء الاصطناعي ومعالجة اللُّغة الطبيعيَّة بحسب مستوى الدَّورة التعليميَّة. يظهر أنَّ الدَّورة ذات المستوى المتوسِّط تستحوذ على النَّصيب الأكبر من التَّسجيلات؛ إذ سجَّل ما يقرب من (700,792) طالبًا في هذا المستوى، وفي المقابل سجَّل حوالي (230,853) طالبًا في الدَّورات ذات المستوى غير المحدَّد، بينما سجَّل(52,611) طالبًا فقط في الدَّورات ذات المستوى المتقدِّم.
يوضح الرَّسم البياني عدد السَّاعات التدريبيَّة لكلِّ دورة تدريبيَّة في مجال الذَّكاء الاصطناعي ومعالجة اللُّغة الطبيعيَّة، يُلاحَظ ذروة واضحة في العدد عند السَّاعة (15)؛ إذ بلغ عدد السَّاعات التدريبيَّة (300) ساعة، مع وجود تقلبات في باقي الأيام، والمتوسط العام لعدد السَّاعات التدريبيَّة للدَّورات، هو: (30.22) ساعة.
يوضح الرَّسم البياني عدد الوظائف المعلَنة في مجال معالجة اللُّغة الطبيعيَّة في منصَّة (لينكد إن) بحسب التَّوزيع الجغرافيِّ في نوفمبر (2024م). يظهر من البيانات تصدُّر الولايات المتحدة الأمريكيَّة القائمة بعدد (14,328) وظيفةً، تليها المملكة المتحدة بـ (1,493) وظيفةً، وفي الدُّول العربيَّة تتصدَّر السُّعوديَّة قائمة الوظائف بـ (337) وظيفةً، متفوقةً على الإمارات والمغرب، بينما توفِّر أستراليا (266) وظيفةً في هذا المجال، وتعكس هذه النَّتائج الهيمنة التِّقنيَّة للدُّول المتقدِّمة في هذا المجال، مع ملاحظة النُّمو البارز في السُّعوديَّة، وتحوُّلها إلى مركز مهم في مجال الذَّكاء الاصطناعي ومعالجة اللُّغة الطبيعيَّة في العالم العربي.
يوضح الرَّسم البياني توزيع وظائف معالجة اللُّغة الطبيعيَّة في المملكة العربيَّة السُّعوديَّة؛ إذ أُعلِن عن (337) وظيفةً في هذا المجال، منها (183) وظيفةً مخصصَّةً فقط لمعالجة اللُّغة العربيَّة، ما يعكس زيادة الاهتمام بهذا المجال، وتخصيص جزء كبير من الفرص لتطوير معالجة اللُّغة العربيَّة خاصَّةً، ممَّا يدل على النُّمو الملحوظ في هذا القطاع، ودعمه دعمًا كبيرًا في السُّعوديَّة.
يعرض هذا الفصل ملخَّصًا شاملًا لأبرز التَّحديات التي تواجه الباحثين والمطوِّرين في مجال حوسبة اللُّغة العربيَّة، ويناقش الفرص المستقبليَّة في ثمانية محاور رئيسة: توفُّر البيانات، وفاعليَّة الأدوات والنَّماذج، وكفاءة البنية التحتيَّة، وفاعليَّة التَّعاون الأكاديمي والصِّناعي، وجودة الأبحاث المنشورة، وكفاية الدَّعم المالي والتَّمويل، وكفاءة القدرات البشريَّة، وأخيرًا، مستوى التَّبادل المعرفي بين الأفراد في هذا المجال. وقد جُمِعت التَّحديات والفرص من مصادر عديدة، هي: الاستبانة، ومجموعات النِّقاش، واستنباطات الفصول السَّابقة.
أظهرت النَّتائج أنَّ (56%) من المشاركين صنَّفوا توفُّر البيانات بأنَّها (غير كافية). وتشير هذه النَّتائج إلى أنَّ غالبيَّة المشاركين يرون أنَّ البيانات المتاحة غير كافية، أو يصعب الوصول إليها؛ ممَّا يشكِّل عائقًا أمام تقدُّم مشروعاتهم البحثيَّة أو الصِّناعيَّة، ويحدُّ من إمكانيَّة تطوير حلول فاعلة في مجال المعالجة الآليَّة للُّغة العربيَّة. وتُظهر النَّتائج أيضًا أنَّ ما يقرب من (37%) من المشاركين يرون أنَّ الأدوات (لا تلبِّي الاحتياجات)، ورأى ما يقرب من (52%) من المشاركين أنَّ البنية التَّحتيَّة الرَّقميَّة لا تدعم متطلَّبات مشروعاتهم، وأقرَّ (71%) من المشاركين أنَّ التَّعاون البحثيَّ (غير فاعل). وهذا التَّقييم يبيِّن وجود فجوة في الجهود التَّعاونيَّة بين القطاعين الأكاديميّ والصِّناعي، تؤدِّي إلى تأخير في تحويل الأبحاث إلى تطبيقات عمليَّة. وتُظهر النَّتائج أيضًا أنَّ ما يقرب من (25%) من المشاركين راضون عن جودة الأبحاث المنشورة في هذا المجال، ولاحظ ما يقرب من (78%) من المشاركين أنَّ الدَّعم الماليَّ والتَّمويل (لا يكفيان)، وهو أعلى تقييم ضمن المحاور؛ ممَّا يشير إلى أنَّ التَّمويل يُشكِّل عقبةً رئيسةً أمام التَّقدُّم في هذا المجال، ويظهر التَّقييم أن ما يقرب من (40%) من المشاركين غير راضين عن مستوى القدرات البشريَّة في مجال المعالجة الآليَّة للُّغة العربيَّة؛ ممَّا يشير إلى وجود فجوةٍ في المهارات اللُّغويَّة والتِّقنيَّة اللَّازمة لدعم مشروعات المعالجة الآليَّة للُّغة العربيَّة. ومع أنَّ (38%) من المشاركين يشاركون خبراتهم ومعرفتهم نسبيًّا، فإنَّ هذه المشاركة لا تزال غير كافية لتحقيق مستوى التَّبادل المعرفيّ المطلوب، الأمر الذي يشير إلى ضرورة تعزيز الجهود المبذولة؛ لزيادة حجم التَّبادل المعرفيّ ونوعيَّته بين المختصِّين.
يعكس منحنى الضجة (Hype Cycle) لعام (2024م) مسار تطور تقنيات المعالجة الآلية للغة العربية، من الابتكار إلى التطبيق العملي، حيث شهد المجال تطلعات مرتفعة، تلتها تحديات تقنية، ثم استقرارًا في الحلول القابلة للتطبيق. برزت تقنيات مثل التعرف إلى اللهجات ومعالجتها بكفاءة الموارد، وبلغت التوقعات ذروتها مع إطلاق تسعة نماذج لغوية كبيرة، قبل إعادة التقييم بسبب تحديات كالتحيز الثقافي. ومع ذلك، استقرت بعض التقنيات الناجحة، مثل التدقيق الإملائي والتعرف إلى الكلام، ووصلت أخرى، كالنماذج المتخصصة والترجمة بين اللهجات، إلى مرحلة الإنتاجية، مما يعكس نضج المجال ويفتح فرصًا جديدة. ورغم هذا التقدم، لا تزال هناك تحديات تتطلب مزيدًا من البحث لضمان دقة هذه التقنيات وفاعليتها، مثل زيادة البيانات الموسّمة، ومعالجة التحيز اللغوي والثقافي في النماذج، ودعم اللهجات في الأدوات، ووضع قواعد أخلاقية لحماية البيانات، وتحسين البنية التحتية.