AI modely se posouvají od jednoduchých odpovědí k vícekrokovému uvažování a používání nástrojů, což zvyšuje počet generovaných tokenů na jeden dotaz. Právě inference, tedy samotný provoz modelů, se podle dostupných informací stává jedním z hlavních motorů nákladů na výpočetní výkon a současně i klíčovým bodem, kde se v praxi vytváří hodnota.
Do hry vstupuje nezávislý benchmark InferenceMAX v1 od SemiAnalysis, který má měřit celkové náklady napříč reálnými scénáři a porovnávat více platforem na běžných modelech a pracovních zátěžích. Výsledky v podkladu staví platformu NVIDIA Blackwell do pozice lídra kombinací výkonu a efektivity pro rozsáhlé inferenční nasazení.
Text uvádí i konkrétní ekonomický příklad: systém NVIDIA GB200 NVL72 za 5 milionů dolarů by podle analýzy mohl vygenerovat přibližně 75 milionů dolarů v příjmech z tokenů, což odpovídá zhruba 15násobné návratnosti investice. Podle NVIDIA jde o důvod, proč se na AI infrastrukturu začíná dívat jako na přímý zdroj výnosů, ne jen nákladové centrum. Ian Buck z NVIDIA k tomu uvedl: „Inference je místo, kde AI přináší hodnotu každý den… Tyto výsledky ukazují, že přístup NVIDIA k celému zásobníku dává zákazníkům výkon a efektivitu, které potřebují k nasazení AI ve velkém měřítku.“
Vedle hardwaru podklad zdůrazňuje vliv softwaru. Zmiňuje knihovnu TensorRT LLM pro DGX Blackwell B200 a aktualizaci TensorRT LLM v1.0, která má zlepšit paralelizaci a využít šířku pásma 1 800 GB/s přepínače NVLink pro vyšší propustnost. U modelu gpt-oss-120b-Eagle3-v2 se uvádí spekulativní dekódování s cílem zrychlit odezvu a posunout výkon až na 30 000 tokenů na GPU. U hustých modelů typu Llama 3.3 70B se pak uvádí přes 10 000 tokenů za sekundu na GPU na Blackwell B200, což má být čtyřikrát více než na starší H200.
Klíčovou metrikou se podle textu stává efektivita, ne jen hrubá propustnost. Pro velká AI datová centra mají rozhodovat ukazatele jako tokeny na watt a náklady na milion tokenů. Podklad tvrdí, že Blackwell přináší 10× vyšší propustnost na megawatt oproti předchozí generaci a současně snižuje náklady na milion tokenů 15×, což má pro provozovatele znamenat nižší náklady a vyšší marže.
InferenceMAX pracuje i s takzvanou Paretovou hranicí, tedy pohledem na kompromisy mezi propustností, spotřebou energie a odezvou. Podle popisu má Blackwell v těchto porovnáních vycházet na efektivní hraně, tedy v kombinaci, která dává smysl pro produkční provoz. NVIDIA zároveň uvádí, že průběžné softwarové optimalizace měly od uvedení zdvojnásobit výkon Blackwellu, což má podtrhovat význam ladění celého stacku.
Zdroj: DeveloperTech News
