HumanEval, MBPP und SWE-bench kombiniert.

Beste KI-Modelle für Coding.

Modelle nach veröffentlichten Coding-Benchmarks gerankt. SWE-bench (echte Bugs in Open-Source-Repos) ist am stärksten gewichtet — es prognostiziert Agent-Verhalten am besten. HumanEval (Funktionssynthese) und MBPP (kleine Python-Programme) decken die Untergrenze ab.

Verwendete Benchmarks: HUMANEVAL · 30% MBPP · 20% SWE BENCH · 50%

Showing top 24 models with published data on at least one of the benchmarks above. Scores are weighted averages on a 0–100 scale.

KI-Modell-Bestenlisten

More leaderboards.