← voidwest    engineering    internals
cpu-first rust inference and probing. gguf loading, hidden-state extraction, and validation artifacts.
rust 1.92 mit cpu-first

ember محرك inference وprobing صغير ومقروء. يشغل نماذج GGUF مضغوطة على CPU، يخرج hidden states لكل طبقة، ويحافظ على artifacts للـ benchmarks والـ validation قريبة من الكود. الهدف ليس استبدال llama.cpp؛ الأولوية هي الوضوح وقابلية المراجعة.

start here

validation ladder

smokeتشغيل بنيوي فقط: الأمر حمّل artifacts وأنتج output.
golden logitsمقارنة logits مع reference موثوق لنفس prompt وtokenizer وmodel وquantization path.
activation checksمقارنة hidden states حسب prompt وtokenizer وmodel وlayer وtoken position.
probesdecodability أو recoverability، وليس causal model use.
interventionsclaims سلوكية تحتاج تغير downstream logits أو continuations.

current status

areastatusread
CPU runtimeيعمل محلياً عبر مسارات GGUF صغيرة ومتوسطةartifact هندسي، وليس production parity
Qwen3 0.6Bgeneration/probe paths تعمليحتاج trusted golden-logit reference
LLaMA 1B/3B/8Bتوجد smoke/probe artifacts محليةالاستنتاجات البحثية ما زالت preliminary
Gemma 4 E2Bdense text-only path يشغل smoke/benchmark محلياًexperimental حتى تغطيه golden checks
encoder benchmarksmBERT PADT smoke اكتمل؛ suite manifest موجودXLM-R/AraBERTv2 full suite ما زال pending

latest update

آخر تحديث هندسي أضاف thread-count benchmark في صفحة engineering. النتائج المحلية تقول إن النماذج الأكبر dense Q8_0 تستفيد من threaded runtime paths على هذا الجهاز، بينما Qwen3 0.6B الصغير لا يستفيد. هذا وصف محلي، وليس توقع سرعة على cloud.

deeper pages

architecture، design decisions، math primitives، attention، KV cache، bugs، وأول output متماسك.
العمل الهندسي الحالي، benchmark plot، والصفحات الفرعية.
Arabic NLP، morphology probing، أوراق tokenization، واتجاه البحث الحالي.