terms · voidwest

مصطلحات تقنية مستخدمة في الموقع، بشرح عربي سريع وبنفس أسلوب الكتابة هنا.

inference engine

البرنامج اللي يشغّل النموذج ويطلع منه نص. تستقبله prompt ويرجع tokens. ember مثال عليه.

tokenizer

يحوّل النص إلى tokens (أرقام) والعكس. النموذج ما يقرأ حروف، يقرأ أرقام. الـ tokenizer هو المترجم بينهم.

token

وحدة نصية صغيرة. ممكن تكون كلمة كاملة، أو جزء من كلمة، أو حرف واحد. النموذج يولّد token ورا token.

BPE (byte pair encoding)

طريقة tokenization تدمج أزواج الحروف الأكثر تكرار. تبني vocabulary من وحدات أصغر من الكلمة. GPT-2 و GPT-4 يستخدمونها.

embeddings

متجهات (أرقام) تمثّل كلمة أو token في فضاء متعدد الأبعاد. الكلمات المتشابهة متجهاتها قريبة من بعض.

attention

آلية تخلّي كل token "ينتبه" لكل الـ tokens السابقة عشان يفهم السياق. أساس الـ transformer.

KV cache

ذاكرة تخزن حسابات الـ attention السابقة. بدل ما تحسب كل شي من البداية لكل token جديد، تقرأ من الـ cache. يسرّع الـ inference بشكل كبير.

GGUF

صيغة ملف لتخزين نماذج اللغة (GPT، LLaMA، إلخ). فيها الأوزان والـ metadata وكل شي النموذج يحتاجه. تدعم الضغط (quantization).

quantization

ضغط أوزان النموذج من f32 (4 بايت لكل وزن) إلى 8-bit أو 4-bit. يقلل الحجم والذاكرة مع خسارة بسيطة في الجودة.

transformer

المعمارية الأساسية لنماذج اللغة الحديثة (GPT، LLaMA، BERT). مبنية على attention mechanism و feed-forward layers.

prefill

المرحلة الأولى من الـ inference. النموذج يقرأ الـ prompt كامل مرة وحدة ويملأ الـ KV cache.

decode

المرحلة الثانية. النموذج يولّد token واحد في كل مرة، يضيفه للـ cache، ويكرر لين يوصل لـ token النهاية.

temperature

يتحكم في عشوائية المخرجات. temperature = 0 يعني دايم تختار أعلى احتمال (حتمي). قيم أعلى = عشوائية أكثر = إبداع أكثر.

top-k / top-p (nucleus)

خوارزميات sampling. top-k يبقي أعلى k tokens. top-p يبقي أقل مجموعة tokens مجموع احتمالاتها يتجاوز p. يمنعون النموذج من اختيار tokens غير منطقية.

softmax

يحوّل مجموعة أرقام (logits) لتوزيع احتمالي مجموعها = 1. الخطوة الأخيرة قبل اختيار الـ token التالي.

layer normalization

يثبّت قيم الـ activations عشان ما تكبر أو تصغر بشكل يخرب الحسابات. كل طبقة transformer تستخدمه قبل الـ attention وقبل الـ mlp.

residual stream

المسار الرئيسي للمعلومات في الـ transformer. مخرج كل طبقة = المدخل + معالجة الطبقة. يخلي الإشارة الأصلية حية عبر النموذج كله.

hidden state

التمثيل الداخلي لكل token في كل طبقة. متجه من 768-4096 بعد (حسب حجم النموذج). probing يكشف إيش يحتوي.

matmul (matrix multiplication)

ضرب المصفوفات. أهم عملية حسابية في الـ inference. 66% من وقت الـ decode يروح فيها.

SIMD

تعليمات معالج تعالج أكثر من رقم في نفس الوقت. AVX2 على x86، NEON على ARM. تسرّع الـ matmul من 4 إلى 8 مرات.

GELU

دالة تنشيط في GPT-2. نسخة أنعم من ReLU. تسمح بمرور القيم السالبة بشكل جزئي بدل ما تقطعها للصفر.

RoPE (rotary position embeddings)

طريقة تشفير موقع الـ token في التسلسل عن طريق تدوير أبعاده. يساعد النموذج يعمم على أطوال أطول مما تدرب عليها. يُستخدم في LLaMA.

GQA (grouped-query attention)

تحسين للـ attention يقلل عدد رؤوس key/value مقارنة برؤوس query. يوفر ذاكرة وسرعة مع تأثير بسيط على الجودة.

SwiGLU / SiLU

دوال تنشيط أحدث تُستخدم في LLaMA. SiLU = x × sigmoid(x). SwiGLU = نسخة ببوابة (gated) من SiLU.

RMS norm

نسخة مبسطة من layer normalization. يستخدم الجذر التربيعي للمتوسط فقط بدون توسيط. أسرع ويُستخدم في LLaMA.

probing

تقنية بحثية لمعرفة إيش يتعلمه النموذج داخلياً. تدرّب classifier بسيط على الـ hidden states وتتحقق إذا يقدر يتنبأ بخاصية لغوية معينة.

morphology

دراسة تركيب الكلمة. في العربي: كيف الجذر الثلاثي (مثل ك-ت-ب) يندمج مع الأوزان (مثل فَعَلَ، مَفْعُول) ويطلع كلمات مختلفة.

root-pattern (non-concatenative) system

نظام الجذر والوزن. الجذر (حروف ساكنة) والوزن (قوالب صوتية) يتداخلون بدل ما يتسلسلون. عكس الإنجليزية اللي تلصق prefix+stem+suffix.

nonce roots

جذور مبتكرة (مخترعة) مو موجودة في اللغة. تُستخدم في الاختبارات عشان تفرق بين الحفظ (النموذج حفظ الكلمة) والتعميم (النموذج تعلم القاعدة).

clitic

مقطع صغير يلتصق بالكلمة. في العربي: حروف الجر (بـ، لـ، كـ) والضمائر المتصلة (ـه، ـهم). جزء كلامي يلتصق شكلياً.

finite-state transducer

آلة رياضية تعالج السلاسل النصية بقواعد. سريعة وحتمية. كانت أساس في أنظمة NLP قبل الموجة العصبية.

RAG (retrieval-augmented generation)

تقنية تدمج البحث في المستندات مع التوليد. النموذج يبحث في قاعدة معرفة قبل ما يجاوب، بدل ما يعتمد على ذاكرته فقط.