← voidwest research notes

tokenization in Arabic embedding models

On the Importance of Tokenization in Arabic Embedding Models

alkaoud & syed · WANLP 2020
Arabic NLP tokenization morphology embeddings

the claim

استخدام morph-aware tokenization في طبقة الـ embedding يرفع أداء مهام Arabic NLP بدون ما تحتاج تعيد تدريب النموذج.

بدل ما تستخدم كلمات سطحية أو BPE، استخدم tokens على مستوى الـ morpheme. المؤلفون جربوا هالشي على Word2Vec و BERT وقاسوا الأداء على NER و sentiment و POS tagging.

results

مفردات أصغر بـ 60% — الـ tokenizer المورفيمي يفكك الكلمة لمكوناتها الأساسية بدل ما يتعامل مع كل شكل سطحي ككلمة مستقلة.
تعامل أفضل مع الكلمات الجديدة — حتى لو الكلمة جديدة على النموذج، morphemesها معروفة ويقدر يمثلها بدون مشكلة.
SOTA من دون إعادة تدريب — BERT المعدل وصل SOTA على datasets عربية وهو يستخدم نموذج pretrained مجمد بالكامل.

context

السر في النظام الصرفي العربي نفسه. عندك مجموعة صغيرة ومحدودة من الجذور والأوزان واللواصق — وكل الكلمات العربية تقريباً تتكون منها. الـ tokenizer المورفيمي يفكك الكلمة لهالمكونات الأساسية، فتنزل المفردات الفعلية من حوالي مليون شكل سطحي إلى 20K morpheme فقط. طبقة الـ embedding في النماذج الصغيرة تاخذ جزء كبير من الـ parameters، فتصغير جدول الـ embedding — مع الاحتفاظ بالتركيب الدلالي — يعطي مكاسب واضحة.

Hypothesis

ليش هالشي مهم جنب نتائج 2026؟

نتيجة 2020 تقول: الحقن الصرفي يساعد. نتيجة 2026 تقول: محاذاة الـ tokenizer ما تتنبأ بجودة التوليد. الاثنين متسقين إذا المتغير الأساسي هو حجم النموذج.

على مستوى Word2Vec/mBERT: النموذج صغير وما يقدر يتعلم التركيب الصرفي من نفسه، فتحتاج تحطه بشكل صريح في طبقة الـ embedding. على مستوى GPT-4: النموذج كبير ويقدر يستنتج التحليل الصرفي بنفسه بقدراته الداخلية واتباع التعليمات. السؤال المفتوح: وين بالضبط تصير هالنقلة؟ وهل نقدر نوصل لها بدون compute مستوى GPT-4؟