Llama 4 Scout 17B (16E)

109B MoE

Meta Llama 4

Meta Llama 4 Scout MoE (17B active / 109B total). Multimodal; needs ~68GB VRAM at Q4_K_M.

⬇ 29.3K HF downloads♥ 155 likesunsloth/Llama-4-Scout-17B-16E-Instruct-GGUF· stats from 6/25/2026

Pro GPU

10486K

Max Context

Quant Variants

GGUF Q4_K_M

Best Quality

97.6%

Accuracy Retained

Quantization Variants

Per-quant VRAM, quality loss, and inference speed on RTX 4090

Format	Level	BPW	VRAM	PPL Loss	Speed	Actions
GGUF	Q4_K_M	4.85	68.0 GB	2.4%	22 tok/s	Calc HF
GGUF	Q3_K_M	3.87	55.0 GB	4.8%	26 tok/s	Calc HF
AWQ	INT4	4	58.0 GB	3.2%	28 tok/s	Calc HF

Meta Llama 4

Llama 4 Maverick flagship MoE (17B active / 400B total). Multi-GPU or H100 cluster territory.

Meta Llama 3.1

Meta's frontier 70B model. Requires 40GB+ VRAM; dual 3090 or M2 Ultra.

Alibaba Qwen2.5

Flagship Qwen2.5. Requires dual 4090 or A100 80G. Exceptional reasoning at scale.

Meta Llama 3.3

Latest Meta 70B with improved multilingual. Drop-in upgrade from Llama 3.1 70B.