ملاحظات على أوراق وتجارب وأفكار. كل ما أتعلم شيء
يستحق التدوين أضيفه هنا.
هذا الأسبوع انتقل عمل Ember على الصرف العربي
من استخراج hidden states إلى قياس أكثر وعياً
بالتسرب. النتيجة أصبحت أضيق: POS يصمد تحت
تقييم heldout أشد في Qwen3-0.6B
وLlama-3.2-1B، بينما الجذر واللمّة والوزن
تحتاج إطار تقييم مختلف.
2026-06-22
·
Arabic NLP
probing
morphology
ember
Qwen
LLaMA
نتائج layerwise probing أولية عبر
LLaMA وQwen وGemma
على محفزات صرف عربي افتراضية. الجذر يختلف بين الطبقات
النهائية، لكن الوزن مشبع ولا يدعم مقارنات حجم أو عائلة
في هذا التشغيل.
2026-06-14
·
Arabic NLP
probing
morphology
LLaMA
Qwen
Gemma
preliminary
فحص LLaMA 3.2 بمقاييس 1B/3B/8B
باستخدام مصنفات خطية وCCA وRSA.
التمثيلات الداخلية موجودة — منظمة، منفصلة، تتغير
بشكل غير رتيب مع الحجم — لكن كل نموذج ينتج
“The”. نتائج، رسوم بيانية،
وخطوات قادمة.
2026-05-26
·
Arabic NLP
probing
morphology
LLaMA
scaling
findings
خلاصة أسبوع من قراءة أوراق Arabic NLP.
ورقة 2026 اللي قلبت الفرضية، وليش السؤال الحقيقي
عن internal representations، مو عن
tokenization.
2026-05-16
·
Arabic NLP
morphology
tokenization
writeup
خطة بحثية: استخدام ember في activation probing
عشان نعرف أين وكيف تتعلم النماذج الصرف العربي
(الجذر والوزن) داخلياً. مبنية على السؤال
المفتوح من Alakeel et al. (2026).
2026-05-16
·
Arabic NLP
probing
ember
research plan
alakeel, qwaider, aldarmaki, alqahtani ·
LREC 2026. جودة محاذاة الـ token
مع الـ morpheme ما تتنبأ بقدرة النموذج على
التوليد الصرفي في LLMs العربية.
GPT-4o يوصل 97% على nonce roots
مع أسوأ محاذاة tokenizer.
2026-05-15
·
Arabic NLP
morphology
tokenization
LLM evaluation
attia · ~2007. tokenizer عربي
modular و finite-state مع
clitic guesser ومحلل صرفي وفك غموض باستخدام
الكشيدة. تصميم guess-and-filter.
2026-05-15
·
Arabic NLP
tokenization
finite-state
alkaoud & syed · WANLP 2020.
morph-aware tokenization في طبقة الـ
embedding: مفردات أصغر بـ 60%، تعامل أفضل
مع الكلمات الجديدة، SOTA
من دون إعادة تدريب. نجح على مستوى
Word2Vec/mBERT.
2026-05-16
·
Arabic NLP
embeddings
tokenization
morphology