استخدام morph-aware tokenization في طبقة الـ embedding يرفع أداء مهام Arabic NLP بدون ما تحتاج تعيد تدريب النموذج.
بدل ما تستخدم كلمات سطحية أو BPE، استخدم tokens على مستوى الـ morpheme. المؤلفون جربوا هالشي على Word2Vec و BERT وقاسوا الأداء على NER و sentiment و POS tagging.
السر في النظام الصرفي العربي نفسه. عندك مجموعة صغيرة ومحدودة من الجذور والأوزان واللواصق — وكل الكلمات العربية تقريباً تتكون منها. الـ tokenizer المورفيمي يفكك الكلمة لهالمكونات الأساسية، فتنزل المفردات الفعلية من حوالي مليون شكل سطحي إلى 20K morpheme فقط. طبقة الـ embedding في النماذج الصغيرة تاخذ جزء كبير من الـ parameters، فتصغير جدول الـ embedding — مع الاحتفاظ بالتركيب الدلالي — يعطي مكاسب واضحة.
ليش هالشي مهم جنب نتائج 2026؟
نتيجة 2020 تقول: الحقن الصرفي يساعد. نتيجة 2026 تقول: محاذاة الـ tokenizer ما تتنبأ بجودة التوليد. الاثنين متسقين إذا المتغير الأساسي هو حجم النموذج.
على مستوى Word2Vec/mBERT: النموذج صغير وما يقدر يتعلم التركيب الصرفي من نفسه، فتحتاج تحطه بشكل صريح في طبقة الـ embedding. على مستوى GPT-4: النموذج كبير ويقدر يستنتج التحليل الصرفي بنفسه بقدراته الداخلية واتباع التعليمات. السؤال المفتوح: وين بالضبط تصير هالنقلة؟ وهل نقدر نوصل لها بدون compute مستوى GPT-4؟