← voidwest research notes

morphemes without borders

Morphemes Without Borders: Evaluating Root-Pattern Morphology in Arabic Tokenizers and LLMs

Alakeel, Qwaider, Aldarmaki, Alqahtani · LREC 2026
Arabic NLP morphology tokenization LLM evaluation arXiv:2603.15773

the core claim

محاذاة الـ token مع الـ morpheme ما تتنبأ بقدرة النموذج على توليد أشكال الجذر والوزن العربي.

tokenizer يقطع الـ morphemes بشكل نظيف ما يضمن توليد جيد، و tokenizer يقطع زيادة (GPT-4) ما يمنعه.

why Arabic morphology is a good test

العربي يستخدم نظام الجذر والوزن. جذور ساكنة تندمج مع قوالب صوتية لتكوين الكلمات.

مثال: الجذر ktb (كتب) + الوزن mafūl → maktūb (مكتوب). الجذر والوزن يتداخلون؛ مو متسلسلين مثل prefix+stem+suffix في الإنجليزي، وهذا يخلي العربي stress test للـ subword tokenizers (BPE، Unigram، WordPiece) المصممة للصرف التسلسلي.

experimental design

part 1: tokenizer morphological alignment

قاسوا مدى تطابق قطع الـ tokenizer مع حدود الـ morpheme المثالية من محللات CAMEL و Farasa، على الفصحى (ATB3) واللهجات (BOLT). المقاييس:

fertility: tokens لكل كلمة
morpheme F₁: تطابق المورفيم الدقيق
boundary F₁: دقة/استدعاء كشف الحدود
MCR: معدل تغطية المورفيم (يتجنب التقطيع الداخلي)

part 2: morphological generation

ثلاث مهام probing باستخدام جذور حقيقية و nonce roots:

root-pattern real: طبّق وزن على جذر ثلاثي حقيقي
root-pattern nonce: نفس المهمة مع جذور مخترعة (تختبر التعميم، مو الحفظ)
affix-build: ترتيب لواحق تسلسلية على كلمة أساس

models evaluated

ALLAM، FANAR، GPT-4، GPT-4o، LLaMA-3، Qwen-3، Cohere. FANAR يستخدم MorphBPE (morph-aware tokenization)؛ البقية يستخدمون BPE/Unigram/WordPiece عادي. zero-shot و one-shot، اختُبرت بالعربي والإنجليزي.

key findings

Key Finding

ما فيه ارتباط بين محاذاة الـ tokenizer وأداء التوليد. GPT-4o سجل أعلى درجة عبر كل المهام (97% دقة nonce) مع أسوأ محاذاة (17% boundary precision). ALLAM عنده أفضل MCR (83-86%) لكن انهار لـ 20% على nonce words.

Key Finding

النماذج المخصصة للعربية ما تقدر تتعامل مع nonce words. ALLAM و FANAR ينهارون بشكل حاد على nonce roots. يحفظون lexemes، مو قواعد منتجة. الـ tokenizer الصرفي لـ FANAR ما ساعده على التعميم.

Key Finding

الـ prompts بالإنجليزي أفضل من العربي. معظم النماذج كان أداؤها أسوأ مع التعليمات بالعربي. غالباً أثر جانبي لبيانات instruction-tuning الممتلئة بالإنجليزي.

Key Finding

الـ one-shot يساعد النماذج الضعيفة، مو القوية. GPT-4 و GPT-4o ثابتين بين zero-shot و one-shot. LLaMA-3، Qwen-3، و Cohere تحسنوا مع مثال. يحتاجون scaffolding سياقي عشان يفهموا التحويل.

Observation

خمسة أنماط خطأ. تطبيق خاطئ للوزن (الجذر صحيح، القالب خاطئ)، تشويه الجذر (تغيرت الحروف الساكنة)، استبدال بكلمة حقيقية (يطلع كلمة صحيحة بدل تطبيق الوزن)، ترتيب خاطئ للواحق، واقتطاع جزئي.

what this means for Arabic NLP research

1. morphology-aware tokenizers may not be worth the complexity

الـ tokenizers المخصصة للغة (MorphBPE، Splinter، إلخ) مكلفة في البناء. التدريب المسبق على نطاق واسع و instruction tuning يبدو إنها تعوض، أو حتى تتفوق عليها. tokenizer GPT-4o يقطع العربي زيادة (fertility أكبر من 3، boundary precision 17%) ومع ذلك يصيب أنماط nonce 97% من الوقت.

2. instruction-following matters more than tokenizer design

قدرة النموذج على اتباع التعليمات تستبدل التحليل الصرفي الصريح. النماذج اللي تتبع التعليمات تطبق القواعد الصرفية باستمرار. اللي ما تقدر تتبع التعليمات تفشل بغض النظر عن جودة الـ tokenizer.

3. Arabic-centric models have room to grow

ALLAM و FANAR كان أداؤهم أقل من GPT-4 و GPT-4o في كل مهمة مع إن عندهم بيانات تدريب عربية أكثر. الحجم ومنهجية الـ tuning يبدو إنها تغلب ميزة البيانات المخصصة للغة في الـ LLMs الحالية.

4. real-word-only benchmarks hide failure modes

ALLAM سجل 67% على الجذور الحقيقية، 20% على nonce. فجوة 47 نقطة. nonce probes هي الطريقة الوحيدة للتفريق بين الحفظ و genuine productivity. benchmarks بدون شرط nonce تعطي صورة ناقصة.

5. future directions

تعلم الصرف بدون tokenization مخصصة: علّم الـ LLMs الصرف من خلال البيانات والـ tuning، مو tokenizers مخصصة
tokenization تكيفي/هجين: معالجة على مستوى الحرف فقط عند الحاجة الصرفية
تجارب مضبوطة: عزل تصميم الـ tokenizer عن المعمارية والبيانات والـ tuning

limitations

مهمة التوليد تخلط الصرف مع اتباع التعليمات؛ النماذج اللي ما تقدر تتبع تنسيق التعليمات تسجل أقل بغض النظر عن كفاءتها الصرفية
الارتباط لا يثبت السببية: المعماريات والبيانات والـ tuning متداخلة
7 نماذج فقط، 13 وزن؛ بيانات أكثر بتساعد
اللهجات العربية (BOLT) اختُبرت للمحاذاة لكن مو للتوليد