SmartEnergyShare.cz — Chytrá energetika

Testování AI modelů žere víc GPU hodin než jejich trénink. A nikdo o tom nemluví.

Amazon letos na jaře přiznal, že opravy datových center po sérii dronových útoků potrvají měsíce. Ne týdny — měsíce. Fyzická infrastruktura, na které běží půlka cloudových služeb planety, se ukázala překvapivě křehká. Ale i kdyby všechny servery stály netknuté, narážíme na problém, který žádný beton ani protidronový systém nevyřeší. Výpočetní kapacita na testování velkých jazykových modelů začíná přerůstat kapacitu na jejich trénink.

Eval bottleneck: co to vlastně znamená

Když firma jako IBM vypustí novou řadu modelů — třeba čerstvé Granite 4.1 — musí každou variantu otestovat na stovkách benchmarků. Bezpečnostní testy, přesnost odpovědí, hallucination rate, code generation, multijazyčnost, reasoning. Granite 4.1 má osm variant od 400M parametrů po 34B. Každá musí projít evaluací na desítkách datasetů typu MMLU, HumanEval, GSM8K, IFEval a dalších.

Jeden běh evaluace modelu s 34 miliardami parametrů na kompletní sadě benchmarků zabere řádově 200–500 GPU hodin na A100. IBM to v technické zprávě ke Granite 4.1 přiznává nepřímo — popisují „reinforcement learning from AI feedback" s Granite Guardian modelem jako evaluátorem, což znamená, že testují model modelem. Rekurze, která násobí výpočetní náklady.

A teď si představte, že tenhle proces neběží jednou. Běží po každé iteraci tréninku. Po každém fine-tuningu. Po každém RLHF kole. U Granite 4.1 IBM použil tříkrokový postup: supervised fine-tuning, pak RLHF s InternLM jako reward modelem, pak další kolo s vlastním Granite Guardian. Tři cykly, každý s evaluací. Pro osm modelů.

Čísla, která nepotěší CFO

Pronájem jednoho NVIDIA H100 na cloudových platformách stojí kolem 2–3 dolarů za hodinu. Kompletní eval suite jednoho 34B modelu vyjde na 600–1 500 dolarů. Zní to přijatelně, dokud si neuvědomíte, že velká AI laboratoř pouští tisíce evaluačních běhů měsíčně. Anthropic v únoru publikoval paper o „constitutional AI" evaluacích, kde jeden bezpečnostní audit modelu vyžadoval 50 000 dotazů na testovaný model a 50 000 dotazů na evaluátorský model. To je 100 000 inferencí jen pro jednu dimenzi bezpečnosti.

Celkové náklady na evaluaci během vývoje jednoho velkého modelu se pohybují v řádu milionů dolarů. A rostou rychleji než náklady na trénink, protože počet požadovaných bezpečnostních testů se každým kvartálem zvyšuje. EU AI Act, americký Executive Order 14110, čínské předpisy — každý regulátor přidává další kritéria.

Proč to souvisí s bezpečností infrastruktury

Dronové útoky na datová centra Amazonu ukázaly, že fyzická bezpečnost cloudové infrastruktury není samozřejmost. Ale eval bottleneck vytváří jiný typ bezpečnostního rizika. Když je testovací kapacita drahá a pomalá, firmy šetří. Zkracují eval suite. Vynechávají edge case testy. Nebo — a to je nejhorší varianta — vypouštějí modely s neúplným bezpečnostním auditem a patchují za pochodu.

Granite 4.1 je v tomhle ohledu pozitivní výjimka. IBM zveřejnil kompletní evaluační metodiku včetně Granite Guardian modelu, který funguje jako specializovaný bezpečnostní auditor. Je to open-source a dostupný na HuggingFace. Kdokoliv si ho může stáhnout a použít pro vlastní bezpečnostní testy. To je správný přístup — ale ne každý ho následuje.

Co s tím může udělat běžný vývojář

Pokud provozujete vlastní modely — třeba přes Ollama na lokálním serveru — evaluace je váš problém. A ignorovat ho je hazard. Naštěstí existují nástroje.

lm-evaluation-harness od EleutherAI je de facto standard. Nainstalujete přes pip, spustíte proti lokálnímu modelu a dostanete skóre na stovkách benchmarků. Jeden běh 7B modelu na RTX 4090 trvá zhruba 4–8 hodin v závislosti na počtu tasků.

```bash

pip install lm-eval

lm_eval --model ollama --model_args model=granite3.1-dense:8b --tasks mmlu,hellaswag,arc_challenge --batch_size 4

```

Pro bezpečnostní evaluaci existuje garak — open-source vulnerability scanner pro LLM. Testuje prompt injection, jailbreaky, data leakage a desítky dalších vektorů. Není dokonalý, ale lepší než nic.

```bash

pip install garak

garak --model_type ollama --model_name granite3.1-dense:8b --probes all

```

Kdo chce ušetřit GPU čas, může evaluovat přes kvantizované modely. LoRA adaptery testujte zvlášť — eval na mergnutém modelu versus eval na base + adaptéru dává občas odlišné výsledky, a pokud to neodchytíte, nasadíte model s jiným chováním, než jaké jste testovali.

Distribuovaná řešení a energetická stopa

Eval bottleneck má přímý dopad na energetickou náročnost AI. Když testování jednoho modelu spolkne 500 GPU hodin na H100, bavíme se o spotřebě kolem 350 kWh. Pro kontext — průměrná česká domácnost spotřebuje 3 500 kWh za rok. Jeden evaluační běh velkého modelu je měsíc provozu domácnosti.

Distribuované výpočetní sítě a chytrý energy management jsou jednou z cest, jak tyhle náklady snížit. Platformy jako SmartEnergyShare ukazují, že sdílení a optimalizace energetických zdrojů funguje v praxi — a stejný princip se začíná aplikovat i na výpočetní kapacitu. Projekty typu Petals nebo Together.ai umožňují rozložit inferenci (a tedy i evaluaci) přes distribuovanou síť GPU, čímž snižují jak finanční, tak energetické náklady.

Co přijde dál

Trend je jasný. Modely rostou pomaleji, ale požadavky na jejich testování rostou exponenciálně. Regulace přituhuje. Red-teaming se stává povinností, ne luxusem. A fyzická infrastruktura — jak ukázal Amazon — není nezranitelná.

IBM se svým Granite 4.1 nastavil zajímavý směr: open-source evaluační modely, které si kdokoliv může spustit lokálně. Pokud se tohle stane normou, demokratizace bezpečnostního testování by mohla eval bottleneck zmírnit. Ale realisticky? Velké laboratoře budou dál cpát miliony do proprietárních eval pipeline, malé firmy budou šetřit a nasazovat nedostatečně otestované modely, a regulátoři budou psát předpisy, které nikdo nestíhá plnit.

Největší bezpečnostní riziko AI v roce 2026 nejsou drony nad datovými centry. Je to model, který prošel tréninkem za 50 milionů dolarů a evaluací za 50 tisíc — protože na víc nezbyl čas, peníze, ani výpočetní kapacita.