research notes · voidwest

ملاحظات على أوراق وتجارب وأفكار. كل ما أتعلم شيء يستحق التدوين أضيفه هنا.

research & direction

When the Result Gets Less Flashy but More Real

هذا الأسبوع انتقل عمل Ember على الصرف العربي من استخراج hidden states إلى قياس أكثر وعياً بالتسرب. النتيجة أصبحت أضيق: POS يصمد تحت تقييم heldout أشد في Qwen3-0.6B وLlama-3.2-1B، بينما الجذر واللمّة والوزن تحتاج إطار تقييم مختلف.

2026-06-22 · Arabic NLP probing morphology ember Qwen LLaMA

cross-family Arabic morphology probes

نتائج layerwise probing أولية عبر LLaMA وQwen وGemma على محفزات صرف عربي افتراضية. الجذر يختلف بين الطبقات النهائية، لكن الوزن مشبع ولا يدعم مقارنات حجم أو عائلة في هذا التشغيل.

2026-06-14 · Arabic NLP probing morphology LLaMA Qwen Gemma preliminary

what LLaMA knows about Arabic morphology (and won't say)

فحص LLaMA 3.2 بمقاييس 1B/3B/8B باستخدام مصنفات خطية وCCA وRSA. التمثيلات الداخلية موجودة — منظمة، منفصلة، تتغير بشكل غير رتيب مع الحجم — لكن كل نموذج ينتج “The”. نتائج، رسوم بيانية، وخطوات قادمة.

2026-05-26 · Arabic NLP probing morphology LLaMA scaling findings

the tokenizer isn't the problem

خلاصة أسبوع من قراءة أوراق Arabic NLP. ورقة 2026 اللي قلبت الفرضية، وليش السؤال الحقيقي عن internal representations، مو عن tokenization.

2026-05-16 · Arabic NLP morphology tokenization writeup

probing Arabic morphology inside LLMs

خطة بحثية: استخدام ember في activation probing عشان نعرف أين وكيف تتعلم النماذج الصرف العربي (الجذر والوزن) داخلياً. مبنية على السؤال المفتوح من Alakeel et al. (2026).

2026-05-16 · Arabic NLP probing ember research plan

paper notes

morphemes without borders

alakeel, qwaider, aldarmaki, alqahtani · LREC 2026. جودة محاذاة الـ token مع الـ morpheme ما تتنبأ بقدرة النموذج على التوليد الصرفي في LLMs العربية. GPT-4o يوصل 97% على nonce roots مع أسوأ محاذاة tokenizer.

2026-05-15 · Arabic NLP morphology tokenization LLM evaluation

arabic tokenization system

attia · ~2007. tokenizer عربي modular و finite-state مع clitic guesser ومحلل صرفي وفك غموض باستخدام الكشيدة. تصميم guess-and-filter.

2026-05-15 · Arabic NLP tokenization finite-state

tokenization in Arabic embedding models

alkaoud & syed · WANLP 2020. morph-aware tokenization في طبقة الـ embedding: مفردات أصغر بـ 60%، تعامل أفضل مع الكلمات الجديدة، SOTA من دون إعادة تدريب. نجح على مستوى Word2Vec/mBERT.

2026-05-16 · Arabic NLP embeddings tokenization morphology