← voidwest    research notes

cross-family Arabic morphology probes

تحليل أولي للطبقات عبر LLaMA وQwen وGemma
mohammed al-thobaiti · 2026-06-14
Arabic NLP probing morphology ember LLaMA Qwen Gemma

هذه ملاحظة قياس أولية على محفزات صرف عربي من نوع nonce root-pattern. السؤال محدود: هل يمكن استرجاع هوية الجذر والوزن بخطية من hidden states المحفوظة؟

النتائج وصفية فقط. الـ probes تقيس قابلية الاسترجاع من التمثيلات الداخلية، ولا تثبت أن النموذج يفهم الصرف العربي أو يستخدم هذه المعلومات سببياً في التوليد.

status

نتائج الوزن مشبعة في هذا الإعداد، لذلك لا تصلح لمقارنات عائلية أو مقارنات حجم. نتائج Gemma E2B في الطبقات المتأخرة تحتاج حذر إضافي لأن تحقق golden-logit وصل فقط إلى cosine ~0.87 مقابل llama.cpp.

الإعداد

استخرجت التمثيلات باستخدام ember عبر --probe على stimuli/nonce_root_pattern.json. البيانات تحتوي 20 جذر افتراضي و10 أوزان، أي 200 محفز. هذه الصفحة تستخدم ملفات التشغيل المحفوظة في artifacts/morphology_runs/20260613_022050.

ملفات الـ NPZ تحتوي أيضاً على split_policy=random. في هذه الملاحظة، الحقول الخاصة بكل مهمة هي المرجع، والحقل العام يعامل كأثر تسجيل لا كسياسة التقسيم الفعلية.

نتائج الجذر

الجذر هو المهمة الأكثر إفادة هنا لأنه يختلف بين النماذج والطبقات. خمسة نماذج تصل إلى قمة 1.000، بينما Qwen 1.5B يصل إلى 0.940 وGemma E2B إلى 0.970.

Root probe accuracy across layers for seven completed models

الهبوط في الطبقة النهائية يظهر في مهمة الجذر: كل نماذج Qwen تهبط عن القمة، وLLaMA 8B يهبط، وGemma E2B يملك أكبر هبوط. بالمقابل، LLaMA 1B وLLaMA 3B يبقيان عند التشبع في الطبقة الأخيرة.

Final-layer minus peak-layer root probe accuracy
observation

فرق الطبقة النهائية بين LLaMA وQwen هو أكثر إشارة عائلية مثيرة في الجدول، لكنه يظل ملاحظة لتوليد فرضيات فقط. التشغيل الحالي لا يثبت سبب الفرق ولا أنه سيصمد بعد إعادة التشغيل والضوابط.

Gemma E2B

Gemma E2B يبلغ قمة الجذر في الطبقة 14 ثم يهبط من 0.970 إلى 0.210 في الطبقة النهائية. هذا واضح بصرياً، لكنه ليس دليلاً نظيفاً على تمثيل صرفي خاص بـ Gemma.

تحقق golden-logit وصل إلى cosine ~0.87 مقابل llama.cpp، مع انجراف تدريجي من الطبقة 5 فما بعدها. لذلك قد تكون التمثيلات المتأخرة متأثرة بتراكم عددي في التنفيذ، وليس فقط ببنية صرفية داخلية.

First peak layer for root and pattern probe accuracy by model

تشبع الوزن

الوزن يصل إلى 1.000 في القمة والطبقة النهائية لكل النماذج السبعة. هذا يحد من التفسير: المهمة 10 فئات فقط، وقد تكون المحفزات سهلة جداً لهذا الإعداد. لذلك لا أستخدم نتائج الوزن لدعم مقارنات عائلية أو مقارنات حجم في هذا التشغيل.

رسوم استكشافية

رسوم RSA وCCA وPCA هنا استكشافية فقط. الملفات الحالية داخل كل نموذج، وليست مقارنات هندسية مباشرة بين النماذج.

Within-model RSA layer-by-layer similarity heatmap for Gemma E2B
Within-model CCA layer-by-layer similarity heatmap for LLaMA 8B
PCA projection of Gemma E2B layer 14 hidden states colored by root label

تحفظات