—
Modèles locaux
—
Providers cascade
—
Load S204
—
Disk
📦 Ollama LOCAL S204 UP
Loading...
Endpoint: http://127.0.0.1:11434 · CPU only · Slow but sovereign
🚀 Ollama REMOTE GPU DOWN

Kaggle GPU tunnel:

https://startup-analytical-shore-substance.trycloudflare.com

⚠️ Tunnel mort. Pour reconnecter: relancer notebook Kaggle + cloudflared tunnel + update /etc/weval/ollama-remote.env

🌍 Ollama S151 OVH UP
Loading...
Endpoint: http://151.80.235.110:11434 · CPU OVH · 12-18s latency
⚡ Sovereign API Cascade v3 13 providers
Loading...
Endpoint: http://127.0.0.1:4000/v1/chat/completions
🧬 WEVIA MASTER v6 — Composition Brain
1
Layer Sovereign (uncensored)
Ollama LOCAL dolphin-llama3:8b + tinydolphin + llama3.2:1b · 100% sovereign · slow CPU
2
Layer Cascade Cloud (fast)
Cerebras qwen-3-235b → Mistral → Cohere → NVIDIA → GitHub Models
3
Layer RAG SMART
grep wiki + obsidian-vault + TF-IDF fallback 756 docs (1.9MB index, rebuild every 6h)
4
Layer Compression Contexte (NEW)
/api/wevia-compress-context.php · auto/sovereign/fast modes · cache 1h · 37% tokens saved typique
5
Layer Validation + Audit
Auto-validation citations · invalid_citations array · IA calls JSONL log + stats endpoint
6
Layer NL Triggers + Doctrines
2820+ intents WEVIA Master · 14 doctrines core canonical · auto-promote D-codes
📦 Compression Contexte LIVE TEST
⚠️ À WIRER (gaps identifiés)
P0 Kaggle GPU tunnel reconnect — Cloudflare tunnel startup-analytical-shore-substance.trycloudflare.com mort. USER doit relancer notebook Kaggle (cron Sunday 3am déjà actif) et update /etc/weval/ollama-remote.env
P0 WEVIA Brain v6 réel — Actuellement seulement wevia-brain-v4-api.php stub. v6 devrait orchestrer Ollama+Sovereign+Cascade en pipeline unifié
P1 SSE streaming compression — Endpoint actuel synchrone. Pour conversations très longues (>30K chars), streaming SSE éviterait timeout
P1 Auto-compression sur Quick Ask — Si prompt+RAG context >5000 chars, auto-compress avant cascade
P1 Dolphin S151 dans cascade Quick Ask — Actuellement non wired. Source GPU souveraine (lent CPU OVH mais 100% sovereign)
P2 OBLITERATUS uncensored sovereign — OSS référencé doc D58. Mécanistic interpretability + refusal directions analysis pour modèles vraiment uncensored
P2 FreeClaudeCode integration — Doc D58 batch2. NVIDIA NIM 40req/min FREE. Permet agent code 100% gratuit + sovereign-first
P2 Hermes Agent self-improving — Doc D58 batch4. Built-in learning loop + persistent memory + searches past conversations + builds user model. Fit parfait WEVIA Master v6
P2 RAG-Anything multimodal — Doc D58 batch4. text+images+tables+equations dans single framework. Étend RAG actuel text-only