Das Modell lädt selbst mit 205 Experten und voller Kontextlänge 262 k Token in den Speicher (16 GB VRAM auf NVIDIA RTX 5070 TI). Aber: es läuft dann extrem langsam.
Empfehlung: 18 Experten, 131 k Kontextlänge, KV-Quant Q8_0/Q5_1, dann sehr schnell!