← voidwest research notes

the tokenizer isn't the problem

what i learned reading arabic nlp papers for a week
mohammed al-thobaiti · 2026-05-16

بنيت inference engine بـ Rust، نشرته، وبعدها كتبت بوست على LinkedIn إني أبغى أتعمق في Arabic tokenization.

وفعلاً غصت فيه. اللي طلعت به ما كان اللي توقعته.

why Arabic is a real stress test for tokenizers

العربي يستخدم نظام الجذر والوزن. جذر من 3 حروف مثل k-t-b (كتب) يندمج مع قوالب صوتية وينتج: kataba (هو كتب)، kitaab (كتاب)، maktab (مكتب)، maktūb (مكتوب)، yaktubu (هو يكتب). الجذر ما يظهر ككلمة مستقلة أبداً — دايم متداخل داخل الشكل السطحي.

كلمة عربية وحدة تقدر تحمل اللي يعادل 4 tokens في الإنجليزي. fasayaktubūnahā (فسيكتبونها) = "and they will write it" — كلمة وحدة فيها proclitics وجذر و enclitic مدمجين.

BPE مصمم يدمج سلاسل حروف متجاورة بناءً على التكرار. المعنى في العربي يعيش في تداخل الجذر والوزن غير المتصل. الاثنين متعارضين هيكلياً.

ضيف الحركات الاختيارية، عدم ثبات المسافات، وتعدد العربي نفسه (فصحى، مصري، خليجي، شامي)، وعندك مشكلة معقدة فعلاً.

the obvious hypothesis: fix the tokenizer

جربوا هذا كثير:

CAMeL Tools و Farasa: محللات صرفية تنتج segmentation شبه مثالي للـ morphemes (Farasa يوصل 99% morpheme F1 على الفصحى)
MorphBPE: BPE مع إشراف صرفي
Alkaoud & Syed (WANLP 2020): عدّلوا Word2Vec و BERT عشان يستخدموا morph-aware tokenization في طبقة الـ embedding. النتيجة: مفردات أصغر بـ 60%، تعامل أفضل مع الكلمات الجديدة، SOTA على datasets عربية من دون إعادة تدريب. بدا واعد.

فرضية معقولة: لو قطعت الـ morphemes صح قبل ما يشوفها النموذج، مفروض يتعلم الصرف أفضل.

then a 2026 paper broke the assumption

Morphemes Without Borders: Evaluating Root-Pattern Morphology in Arabic Tokenizers and LLMs

alakeel, qwaider, aldarmaki, alqahtani · LREC 2026, arXiv:2603.15773
من SDAIA، MBZUAI، و PNU

قيّموا 7 LLMs عربية (ALLAM، FANAR، GPT-4، GPT-4o، LLaMA-3، Qwen-3، Cohere) على بعدين: (1) مدى محاذاة الـ tokenizers حقهم مع حدود الـ morpheme المثالية، و (2) مدى قدرة النماذج على توليد أشكال الجذر والوزن، بما فيها nonce roots — جذور مبتكرة ما مرت عليهم قبل — وهذا يختبر التعميم الحقيقي، مو الحفظ.

Key Finding

المحاذاة ما تتنبأ بالأداء.

ALLAM عنده أفضل محاذاة (MCR 83-86%) لكن انهار على nonce words: 20% دقة. النموذج يحفظ، ما يعمم.

GPT-4 عنده أسوأ محاذاة (fertility أعلى بـ 4 مرات من المثالي، boundary precision 17%) لكنه سجل 92% على nonce roots. ثاني أفضل نتيجة.

GPT-4o سجل 97% على nonce words مع محاذاة سيئة بنفس المستوى.

ما فيه أي ارتباط بين مقاييس محاذاة الـ tokenizer وأداء التوليد الصرفي. morpheme F1 و MCR ارتباطهم صفر أو سلبي مع دقة التوليد.

FANAR، اللي tokenizer حقه واعي بالصرف (MorphBPE)، أدى بشكل ثابت لكن ما سيطر. يمكن سبب أدائه المستقر هو قدرته على اتباع التعليمات، مو جودة الـ tokenizer.

الـ prompts بالإنجليزي تفوقت على العربي في معظم النماذج — بيانات instruction-tuning أغلبها إنجليزي.

استنتاج الورقة: الكفاءة الصرفية تنقاس بالتعميم، مو بجودة التقطيع السطحي. النموذج يقدر يعوض ضعف الـ tokenizer بقدراته الداخلية وقدرته على فهم التعليمات.

what this means

نتيجة 2020 (morph-aware tokenization يفيد) ونتيجة 2026 (محاذاة الـ tokenizer ما تفرق) مو متناقضين. الفرق يعتمد على الحجم:

على مستوى Word2Vec/mBERT (~100M معامل): تحط الصرف بشكل صريح في طبقة الـ embedding لأنه النموذج صغير وما يقدر يتعلمه بنفسه
على مستوى GPT-4: النموذج كبير ويقدر يعوض أسوأ محاذاة tokenizer بذكائه الداخلي
السؤال المفتوح: وين نقطة التحول؟ عند أي حجم يصير الصرف الصريح كمدخل غير مهم؟ وهل نقدر نوصل لهالقدرة للعربي بدون compute مستوى GPT-4؟

المجال سأل "أي tokenizer يفوز في مهام التصنيف" لسنين. أوراق 2023 و 2024 دايم تطلع بنتيجة "يعتمد على المهمة والـ dataset." ورقة 2026 تعيد صياغة السؤال كله: وقف تسأل عن التقطيع السطحي وابدأ تسأل عن التعميم.

الفجوة الحقيقية مو في الـ tokenizer ولا حتى طبقة الـ embedding. يمكن في internal representations اللي يبنيها النموذج داخلياً.

GPT-4 و GPT-4o يسوون شيء ALLAM ما يسويه، مع إن ALLAM عنده بيانات تدريب عربية أكثر و tokenizer أفضل. وش هو هذا الشيء؟

what's next

بروح أشوف زاوية الـ internal activation: كيف تبدو التمثيلات فعلاً داخل نماذج تنجح ضد نماذج تفشل على Arabic nonce words؟

colab + نماذج عربية صغيرة ممكنة على معالج عادي. الـ behavioral probing (على مستوى الـ logit) ما يحتاج تحميل الأوزان كاملة. وعندي inference engine يعطيني وصول مباشر للـ hidden states في كل طبقة.

خطوط ثانية أتابعها:

مشكلة اللهجات (الفصحى ضد العامية) تطلع في كل ورقة كمسألة غير محلولة. المحللات الصرفية متحيزة للفصحى. البيانات اللهجية تمثيلها ناقص.
العربيزي (العربي بالحروف اللاتينية والأرقام، مثل "3arabi") ما شفت أي ورقة tokenization تلمسه.
سؤال التحجيم: هل نقدر نلقى نقطة التقاطع اللي يتفوق فيها تعلم الصرف الضمني على الحقن الصرفي الصريح؟ هذا سؤال بحثي محدد وقابل للإجابة.

الموضوع بدأ كفضول من بوست LinkedIn. الحين عندي أسئلة بحثية حقيقية واتجاه مو مستكشف بالكامل. تحديثات أكثر مع الوقت.

papers referenced

alakeel, qwaider, aldarmaki, alqahtani, "morphemes without borders", LREC 2026, arXiv:2603.15773
alkaoud & syed, "on the importance of tokenization in Arabic embedding models", WANLP 2020, ACL Anthology
attia، "Arabic tokenization system"، ~2007 (قواعدي، finite-state)
alrefaie et al., "exploring tokenization strategies and vocabulary sizes for enhanced Arabic language models", arXiv:2403.11130, 2024