Podívejme se na tvrdá data - jak si jednotlivé modely vedou na standardních benchmarcích.
Hlavní benchmarky
Coding (HumanEval)
| Model | HumanEval Score | Poznámka |
|---|
| Opus 4.5 | 92.1% | Nejlepší, ale drahý |
| Sonnet 4.5 | 88.7% | Sweet spot |
| Haiku 3.5 | 75.9% | Pro jednoduché úlohy |
Reasoning (MMLU)
| Model | MMLU Score | Graduate Level |
|---|
| Opus 4.5 | 95.2% | Excelentní |
| Sonnet 4.5 | 90.8% | Velmi dobré |
| Haiku 3.5 | 82.1% | Dostatečné |
Math (GSM8K)
| Model | GSM8K | MATH |
|---|
| Opus 4.5 | 97.8% | 76.4% |
| Sonnet 4.5 | 94.2% | 68.5% |
| Haiku 3.5 | 88.3% | 52.1% |
Rychlost vs Kvalita
Rychlost (tokens/sec):
Haiku: ~180 t/s ████████████████████
Sonnet: ~90 t/s ██████████
Opus: ~45 t/s █████
Kvalita (relativní):
Haiku: ★★★☆☆
Sonnet: ★★★★☆
Opus: ★★★★★
Real-world úlohy
Code Review (1000 řádků)
| Model | Čas | Nalezené bugy | Cena |
|---|
| Opus | 45s | 12/12 | $0.18 |
| Sonnet | 25s | 10/12 | $0.04 |
| Haiku | 12s | 6/12 | $0.006 |
Dokumentace (API docs)
| Model | Kvalita | Struktura | Cena/stránka |
|---|
| Opus | Excelentní | Perfektní | $0.12 |
| Sonnet | Velmi dobrá | Dobrá | $0.03 |
| Haiku | Základní | Akceptovatelná | $0.004 |
Debugging (complex bug)
| Model | Úspěšnost | Průměrný čas |
|---|
| Opus | 94% | 2 min |
| Sonnet | 78% | 1.5 min |
| Haiku | 45% | 1 min |
Klíčové poznatky
- Opus dominuje v komplexních úlohách - ale za cenu
- Sonnet je sweet spot - 80% kvality za 20% ceny Opus
- Haiku pro volume - když potřebujete rychlost a škálu
V další lekci se podíváme na detailní cost analýzu.