محاذاة الـ token مع الـ morpheme ما تتنبأ بقدرة النموذج على توليد أشكال الجذر والوزن العربي.
tokenizer يقطع الـ morphemes بشكل نظيف ما يضمن توليد جيد، و tokenizer يقطع زيادة (GPT-4) ما يمنعه.
العربي يستخدم نظام الجذر والوزن. جذور ساكنة تندمج مع قوالب صوتية لتكوين الكلمات.
مثال: الجذر ktb (كتب) + الوزن mafūl → maktūb (مكتوب). الجذر والوزن يتداخلون؛ مو متسلسلين مثل prefix+stem+suffix في الإنجليزي، وهذا يخلي العربي stress test للـ subword tokenizers (BPE، Unigram، WordPiece) المصممة للصرف التسلسلي.
قاسوا مدى تطابق قطع الـ tokenizer مع حدود الـ morpheme المثالية من محللات CAMEL و Farasa، على الفصحى (ATB3) واللهجات (BOLT). المقاييس:
ثلاث مهام probing باستخدام جذور حقيقية و nonce roots:
ALLAM، FANAR، GPT-4، GPT-4o، LLaMA-3، Qwen-3، Cohere. FANAR يستخدم MorphBPE (morph-aware tokenization)؛ البقية يستخدمون BPE/Unigram/WordPiece عادي. zero-shot و one-shot، اختُبرت بالعربي والإنجليزي.
ما فيه ارتباط بين محاذاة الـ tokenizer وأداء التوليد. GPT-4o سجل أعلى درجة عبر كل المهام (97% دقة nonce) مع أسوأ محاذاة (17% boundary precision). ALLAM عنده أفضل MCR (83-86%) لكن انهار لـ 20% على nonce words.
النماذج المخصصة للعربية ما تقدر تتعامل مع nonce words. ALLAM و FANAR ينهارون بشكل حاد على nonce roots. يحفظون lexemes، مو قواعد منتجة. الـ tokenizer الصرفي لـ FANAR ما ساعده على التعميم.
الـ prompts بالإنجليزي أفضل من العربي. معظم النماذج كان أداؤها أسوأ مع التعليمات بالعربي. غالباً أثر جانبي لبيانات instruction-tuning الممتلئة بالإنجليزي.
الـ one-shot يساعد النماذج الضعيفة، مو القوية. GPT-4 و GPT-4o ثابتين بين zero-shot و one-shot. LLaMA-3، Qwen-3، و Cohere تحسنوا مع مثال. يحتاجون scaffolding سياقي عشان يفهموا التحويل.
خمسة أنماط خطأ. تطبيق خاطئ للوزن (الجذر صحيح، القالب خاطئ)، تشويه الجذر (تغيرت الحروف الساكنة)، استبدال بكلمة حقيقية (يطلع كلمة صحيحة بدل تطبيق الوزن)، ترتيب خاطئ للواحق، واقتطاع جزئي.
الـ tokenizers المخصصة للغة (MorphBPE، Splinter، إلخ) مكلفة في البناء. التدريب المسبق على نطاق واسع و instruction tuning يبدو إنها تعوض، أو حتى تتفوق عليها. tokenizer GPT-4o يقطع العربي زيادة (fertility أكبر من 3، boundary precision 17%) ومع ذلك يصيب أنماط nonce 97% من الوقت.
قدرة النموذج على اتباع التعليمات تستبدل التحليل الصرفي الصريح. النماذج اللي تتبع التعليمات تطبق القواعد الصرفية باستمرار. اللي ما تقدر تتبع التعليمات تفشل بغض النظر عن جودة الـ tokenizer.
ALLAM و FANAR كان أداؤهم أقل من GPT-4 و GPT-4o في كل مهمة مع إن عندهم بيانات تدريب عربية أكثر. الحجم ومنهجية الـ tuning يبدو إنها تغلب ميزة البيانات المخصصة للغة في الـ LLMs الحالية.
ALLAM سجل 67% على الجذور الحقيقية، 20% على nonce. فجوة 47 نقطة. nonce probes هي الطريقة الوحيدة للتفريق بين الحفظ و genuine productivity. benchmarks بدون شرط nonce تعطي صورة ناقصة.