Llama 4 Maverick 17B (128E)

400B MoE

Meta Llama 4

Llama 4 Maverick flagship MoE (17B active / 400B total). Multi-GPU or H100 cluster territory.

⬇ 10.7K HF downloads♥ 49 likesunsloth/Llama-4-Maverick-17B-128E-Instruct-GGUF· stats from 6/25/2026

Pro GPU

1049K

Max Context

Quant Variants

GGUF Q4_K_M

Best Quality

97.8%

Accuracy Retained

Quantization Variants

Per-quant VRAM, quality loss, and inference speed on RTX 4090

Format	Level	BPW	VRAM	PPL Loss	Speed	Actions
GGUF	Q4_K_M	4.85	245.0 GB	2.2%	8 tok/s	Calc HF
GGUF	Q3_K_M	3.87	198.0 GB	4.5%	10 tok/s	Calc HF

Meta Llama 4

Meta Llama 4 Scout MoE (17B active / 109B total). Multimodal; needs ~68GB VRAM at Q4_K_M.

Meta Llama 3.1

Meta's frontier 70B model. Requires 40GB+ VRAM; dual 3090 or M2 Ultra.

Alibaba Qwen2.5

Flagship Qwen2.5. Requires dual 4090 or A100 80G. Exceptional reasoning at scale.

Meta Llama 3.3

Latest Meta 70B with improved multilingual. Drop-in upgrade from Llama 3.1 70B.