مصطلحات تقنية مستخدمة في الموقع، بشرح عربي سريع وبنفس أسلوب الكتابة هنا.
- inference engine
- البرنامج اللي يشغّل النموذج ويطلع منه نص. تستقبله prompt ويرجع tokens. ember مثال عليه.
- tokenizer
- يحوّل النص إلى tokens (أرقام) والعكس. النموذج ما يقرأ حروف، يقرأ أرقام. الـ tokenizer هو المترجم بينهم.
- token
- وحدة نصية صغيرة. ممكن تكون كلمة كاملة، أو جزء من كلمة، أو حرف واحد. النموذج يولّد token ورا token.
- BPE (byte pair encoding)
- طريقة tokenization تدمج أزواج الحروف الأكثر تكرار. تبني vocabulary من وحدات أصغر من الكلمة. GPT-2 و GPT-4 يستخدمونها.
- embeddings
- متجهات (أرقام) تمثّل كلمة أو token في فضاء متعدد الأبعاد. الكلمات المتشابهة متجهاتها قريبة من بعض.
- attention
- آلية تخلّي كل token "ينتبه" لكل الـ tokens السابقة عشان يفهم السياق. أساس الـ transformer.
- KV cache
- ذاكرة تخزن حسابات الـ attention السابقة. بدل ما تحسب كل شي من البداية لكل token جديد، تقرأ من الـ cache. يسرّع الـ inference بشكل كبير.
- GGUF
- صيغة ملف لتخزين نماذج اللغة (GPT، LLaMA، إلخ). فيها الأوزان والـ metadata وكل شي النموذج يحتاجه. تدعم الضغط (quantization).
- quantization
- ضغط أوزان النموذج من f32 (4 بايت لكل وزن) إلى 8-bit أو 4-bit. يقلل الحجم والذاكرة مع خسارة بسيطة في الجودة.
- transformer
- المعمارية الأساسية لنماذج اللغة الحديثة (GPT، LLaMA، BERT). مبنية على attention mechanism و feed-forward layers.
- prefill
- المرحلة الأولى من الـ inference. النموذج يقرأ الـ prompt كامل مرة وحدة ويملأ الـ KV cache.
- decode
- المرحلة الثانية. النموذج يولّد token واحد في كل مرة، يضيفه للـ cache، ويكرر لين يوصل لـ token النهاية.
- temperature
- يتحكم في عشوائية المخرجات. temperature = 0 يعني دايم تختار أعلى احتمال (حتمي). قيم أعلى = عشوائية أكثر = إبداع أكثر.
- top-k / top-p (nucleus)
- خوارزميات sampling. top-k يبقي أعلى k tokens. top-p يبقي أقل مجموعة tokens مجموع احتمالاتها يتجاوز p. يمنعون النموذج من اختيار tokens غير منطقية.
- softmax
- يحوّل مجموعة أرقام (logits) لتوزيع احتمالي مجموعها = 1. الخطوة الأخيرة قبل اختيار الـ token التالي.
- layer normalization
- يثبّت قيم الـ activations عشان ما تكبر أو تصغر بشكل يخرب الحسابات. كل طبقة transformer تستخدمه قبل الـ attention وقبل الـ mlp.
- residual stream
- المسار الرئيسي للمعلومات في الـ transformer. مخرج كل طبقة = المدخل + معالجة الطبقة. يخلي الإشارة الأصلية حية عبر النموذج كله.
- hidden state
- التمثيل الداخلي لكل token في كل طبقة. متجه من 768-4096 بعد (حسب حجم النموذج). probing يكشف إيش يحتوي.
- matmul (matrix multiplication)
- ضرب المصفوفات. أهم عملية حسابية في الـ inference. 66% من وقت الـ decode يروح فيها.
- SIMD
- تعليمات معالج تعالج أكثر من رقم في نفس الوقت. AVX2 على x86، NEON على ARM. تسرّع الـ matmul من 4 إلى 8 مرات.
- GELU
- دالة تنشيط في GPT-2. نسخة أنعم من ReLU. تسمح بمرور القيم السالبة بشكل جزئي بدل ما تقطعها للصفر.
- RoPE (rotary position embeddings)
- طريقة تشفير موقع الـ token في التسلسل عن طريق تدوير أبعاده. يساعد النموذج يعمم على أطوال أطول مما تدرب عليها. يُستخدم في LLaMA.
- GQA (grouped-query attention)
- تحسين للـ attention يقلل عدد رؤوس key/value مقارنة برؤوس query. يوفر ذاكرة وسرعة مع تأثير بسيط على الجودة.
- SwiGLU / SiLU
- دوال تنشيط أحدث تُستخدم في LLaMA. SiLU = x × sigmoid(x). SwiGLU = نسخة ببوابة (gated) من SiLU.
- RMS norm
- نسخة مبسطة من layer normalization. يستخدم الجذر التربيعي للمتوسط فقط بدون توسيط. أسرع ويُستخدم في LLaMA.
- probing
- تقنية بحثية لمعرفة إيش يتعلمه النموذج داخلياً. تدرّب classifier بسيط على الـ hidden states وتتحقق إذا يقدر يتنبأ بخاصية لغوية معينة.
- morphology
- دراسة تركيب الكلمة. في العربي: كيف الجذر الثلاثي (مثل ك-ت-ب) يندمج مع الأوزان (مثل فَعَلَ، مَفْعُول) ويطلع كلمات مختلفة.
- root-pattern (non-concatenative) system
- نظام الجذر والوزن. الجذر (حروف ساكنة) والوزن (قوالب صوتية) يتداخلون بدل ما يتسلسلون. عكس الإنجليزية اللي تلصق prefix+stem+suffix.
- nonce roots
- جذور مبتكرة (مخترعة) مو موجودة في اللغة. تُستخدم في الاختبارات عشان تفرق بين الحفظ (النموذج حفظ الكلمة) والتعميم (النموذج تعلم القاعدة).
- clitic
- مقطع صغير يلتصق بالكلمة. في العربي: حروف الجر (بـ، لـ، كـ) والضمائر المتصلة (ـه، ـهم). جزء كلامي يلتصق شكلياً.
- finite-state transducer
- آلة رياضية تعالج السلاسل النصية بقواعد. سريعة وحتمية. كانت أساس في أنظمة NLP قبل الموجة العصبية.
- RAG (retrieval-augmented generation)
- تقنية تدمج البحث في المستندات مع التوليد. النموذج يبحث في قاعدة معرفة قبل ما يجاوب، بدل ما يعتمد على ذاكرته فقط.