Llama 3.2 90B Vision Instruct

90B

Meta Llama 3.2

Flagship multimodal Llama. Requires dual 4090 or A100; vision adds ~3GB overhead.

Pro GPU

131K

Max Context

Quant Variants

GGUF Q4_K_M

Best Quality

97.2%

Accuracy Retained

Quantization Variants

Per-quant VRAM, quality loss, and inference speed on RTX 4090

Format	Level	BPW	VRAM	PPL Loss	Speed	Actions
GGUF	Q4_K_M	4.85	54.8 GB	2.8%	22 tok/s	Calc HF
GGUF	Q3_K_M	3.87	44.2 GB	6.5%	28 tok/s	Calc HF