Encontrar GPU →

Use case

Run LLMs (inference / serving).

Inference is bandwidth-bound: VRAM size sets the maximum model + context window, but you can mix quantization (int4/int8/fp8) to fit larger models on cheaper hardware. RTX 4090 runs 70B models at int4 quality.

≥ 12GB VRAM

Best GPUs

Top GPUs for this workload.

Ranked by suitability — higher fitness scores mean the card handles this workload more comfortably.

GPU	Tier	VRAM	Fit
Nvidia Nvidia B200	datacenter	192GB	100	Compare →
Nvidia Nvidia H200	datacenter	141GB	95	Compare →
Nvidia Nvidia H100	datacenter	80GB	90	Compare →
Nvidia Nvidia GeForce RTX 5090	consumer	32GB	80	Compare →
Nvidia Nvidia RTX 6000 Ada	workstation	48GB	80	Compare →
Nvidia Nvidia L40S	datacenter	48GB	80	Compare →
Nvidia Nvidia A100	datacenter	40GB	80	Compare →
Nvidia Nvidia RTX A6000	workstation	48GB	75	Compare →
Nvidia Nvidia GeForce RTX 4090	consumer	24GB	75	Compare →
Nvidia Nvidia RTX 5000 Ada		32GB	65	Compare →
Nvidia Nvidia L4	datacenter	24GB	65	Compare →
Nvidia Nvidia RTX A5000	workstation	24GB	60	Compare →

Best AI models

Top models for this workload.

GPT-5

by OpenAI · GPT · 256,000 ctx

OpenAI's frontier multimodal reasoning model.

Claude Opus 4.7

by Anthropic · Claude · 200,000 ctx

Frontier reasoning and long-form coding from Anthropic.

Qwen 3 235B

by Alibaba (Qwen Team) · Qwen 3 · 128,000 ctx

Alibaba's frontier MoE — 235B total / 22B active.

Claude 3.5 Sonnet

by Anthropic · Claude · 200,000 ctx

Anthropic's 3.5 generation — still in active production.

DeepSeek R1 Distill Llama 70B

by DeepSeek · DeepSeek · 128,000 ctx

70B Llama distilled from DeepSeek R1's reasoning traces.

DeepSeek R1

by DeepSeek · DeepSeek · 128,000 ctx

DeepSeek's reasoning model — RL-trained, frontier-class, MIT-licensed.

DeepSeek V3

by DeepSeek · DeepSeek · 128,000 ctx

DeepSeek's flagship MoE — 671B total, 37B active, frontier-class.

Gemini 2.5 Pro

by Google DeepMind · Gemini · 1,000,000 ctx

Google's frontier reasoning model with native 1M-token context.

Claude Sonnet 4.6

by Anthropic · Claude · 200,000 ctx

Best price-performance from Anthropic. Default for production agents.

Hermes 3 70B

by Nous Research · Hermes · 128,000 ctx

Nous Research's flagship Llama fine-tune — agent-friendly.

GPT-OSS 120B

by OpenAI · GPT-OSS · 128,000 ctx

OpenAI's first open-weight LLM in years — Apache-licensed MoE.

Qwen 3 32B

by Alibaba (Qwen Team) · Qwen 3 · 128,000 ctx

Dense 32B Qwen 3.