AI News – květen 2026

2026

Martin

Sumera

Novinky

Poslední měsíce nám čím dál jasněji ukazují, že se AI stává samostatnějším a spolehlivějším nástrojem, což je vidět i na číslech. Jenže „jednat“ a „jednat spolehlivě“ jsou ještě stále dvě různé věci. Agenti dostávají víc autonomie, víc nástrojů, víc kontextu. A právě proto se čím dál víc ukazuje, že klíčový problém není jen model samotný, ale to, jak ho celý zapouzdříte.

TL;DR

Harness agenta rozhoduje o tom, jestli agent v praxi funguje – a jeden únik kódu letos v dubnu ukázal, proč je to těžší postavit, než se zdá.
Agenti, kteří běží celou noc (RL loops, ML Intern, AutoResearch) přinášejí nový způsob, jak spouštět agenty na dlouhých úlohách s měřitelným výsledkem.
Modelový trh se rozrůstá: GPT-5.5, Opus 4.7, záhadný Claude Mythos, Gemma 4 a DeepSeek V4 posunují laťku výkonu i ceny.
AI-first myšlení přestalo být buzzwordem – mění to, jak přemýšlíme o problémech od začátku.

1 | Harness: ta nejtěžší část agentic engineeringu, o které se nemluví

Nedávno unikl na veřejnost kód jednoho z komerčních proprietárních coding agentů (Claude Code). Šlo o jakýsi „snapshot“ toho, jak agent ve skutečnosti funguje uvnitř a co můžeme do budoucna očekávat.

Co ten leak ukázal? Že vytvořit agenta, který něco udělá, je triviální. Jenže vytvořit agenta, který to udělá správně, spolehlivě a bez vedlejších škod, je úplně jiná disciplína. Uvnitř konfiguračních souborů byly desítky pravidel – co agent nesmí dělat, jak má reagovat na chyby, kdy se má zastavit a kdy eskalovat problém na člověka.

V AI světě se této vrstvě mezi modelem a reálným světem říká harness (zatím pro ni nemáme ustálený český ekvivalent, nejblíž je asi „postroj“ nebo „orchestrační rámec“). Harness zahrnuje všechno, co agent potřebuje, aby nebyl jen chytrý, ale i použitelný v praxi: systémové instrukce, dostupné nástroje, pravidla pro eskalaci, limity, způsob zotavení po chybě, správu kontextu při delším běhu i způsob vyhodnocování výsledků.

Spousta lidí si dnes myslí, že integrace agenta do firmy vypadá jednoduše: zavoláte API, dáte prompt „udělej X“ a dostanete výstup. To funguje pro jednoduché demo. Pro reálný provoz to ale nestačí. Integrace agentů do procesů má víc vrstev:

Pro jednoduché use-cases, jako je sumarizace, třídění e-mailů nebo generování reportů, dnes existují hotové nástroje nebo MCP konektory, které můžete rychle zapojit. To jsou dobré vstupní body, pokud chcete AI rychle otestovat.

Pokud ale chcete agenta zabudovat přímo do produktu nebo konkrétního workflow, jde už o zložitejší proces. Musíte vyřešit, jak agent získá správný kontext, jak se zotaví z chyb, jak poznáte, že výsledek je kvalitní, a hlavně jak zajistit, aby agent nezpůsobil škodu, když se něco nepovede.

Ve Futured aktuálně pracujeme na řadě interních i externích projektů, kde se snažíme LLM uchopit správným způsobem tak, aby přinášely konzistentní a spolehlivé výsledky napříč různými úlohami. Experimentujeme s různými open-source nástroji a porovnáváme je s proprietárními řešeními. Jednoduché to rozhodně není a čím složitější úloha, tím víc záleží na detailech.

2 | Agenti, kteří běží celou noc

Na začátku roku jsme zaznamenali nový trend: tzv. ralph loop. LLM, které běží opakovaně dokola s jednoduchými instrukcemi, kdy se mají zastavit. Ukázalo to zajímavý posun oproti tradičnímu „chatovému“ přístupu. Postupně se objevují komunitní projekty jako ML Intern nebo AutoResearch, které tento koncept rozvíjejí dál. Experimentují s jednoduchou myšlenkou: co kdyby LLM dostal jasný úkol, jasně dané hranice a přesně definované kritérium úspěchu? A pak běžel ve smyčce tak dlouho, dokud cíle nedosáhne? Klidně i několik dní.

Jde o evoluci původního konceptu, tentokrát ale s klíčovým rozdílem. Místo toho, aby agent opakoval ten samý pokus, systém každý pokus vyhodnocuje, ukládá výsledky a další iteraci spouští s nově získaným kontextem. Je to mnohem blíž tomu, jak funguje výzkum nebo optimalizace v machine learningu, tedy jako opakovaný experiment s měřitelným výsledkem.

Praktický příklad: vývojář dostane za úkol zlepšit přesnost klasifikátoru obrázků o 5 %. Má k dispozici trénovací skript, testovací data a jasnou definici toho, co znamená „úspěch“. Agent pak přes noc vyzkouší desítky kombinací hyperparametrů a architektur, každou variantu vyhodnotí a ráno vrátí nejlepší výsledek. Podobný přístup lze aplikovat na prakticky jakýkoli měřitelný problém, od výkonu aplikací až po přesnost agentních pipeline.

Přenositelnost tohoto přístupu je fascinující: funguje všude tam, kde máte jasně definovanou evaluační funkci. A právě v tom spočívá největší mentální posun, který po nás tento přístup vyžaduje. Nestačí vědět, co chceme musíme to umět definovat natolik přesně, aby to šlo objektivně změřit.

Tenhle přístup mění způsob, jak přemýšlíme o technických problémech. Dříve jsme hledali konkrétní řešení. Dnes čím dál častěji hledáme správná evaluační kritéria. Pokud dokážeme přesně definovat, co znamená „dobré“, agent může iterovat samostatně. Omezení jsou ale reálná: ne každou úlohu lze takto formalizovat. Tvorba obsahu, design nebo strategická rozhodnutí se měří obtížně. Tam, kde ale měřitelnost existuje, například výkon, spolehlivost nebo cena, patří tyto přístupy mezi nejzajímavější, které dnes sledujeme.

3 | Modely: víc možností, nižší ceny, jeden záhadný příchozí

Poslední měsíce přinesly hned několik modelových novinek, které stojí za pozornost.

GPT-5.5 od OpenAI a Claude Opus 4.7 od Anthropicu dobře ukazují, kam se dnes AI posouvá: méně velkých „wow“ skoků, ale o to víc postupného zlepšování v tom, co je důležité v praxi. GPT-5.5 působí rychleji a spolehlivěji při práci na delších, vícekrokových úlohách a dobře funguje v agentních workflow, zatímco Claude Opus 4.7 vyniká v hlubší analýze, práci s komplexními problémy a dlouhým kontextem. Oba modely přišly v dubnu 2026 jen pár dní od sebe a potvrzují stejný trend: nejde už tolik o efektní odpovědi, ale o to, aby model zvládl dlouhodobou práci, držel konzistenci a dal se reálně použít v produkci.

Záhadou je i Claude Mythos. Jde o specializovaný model s omezeným přístupem, zaměřený na kybernetickou bezpečnost, který má vynikat jak v ofenzivním „hacker“ myšlení, tak v roli security analytika. Je to zajímavý signál: velké laboratoře začínají víc sázet nejen na univerzální modely, ale i na hybridy s hlubokými doménovými schopnostmi.

Na straně open source stojí za zmínku Gemma 4 od Googlu a DeepSeek V4 z Číny, které nabízejí výkon stále bližší proprietární špičce za zlomek ceny. Pro firmy, které dnes platí za prémiová API, se tak otevírá nová otázka: kde je hranice, kdy se vyplatí přejít na open-source model a kdy začne cena hrát ještě výraznější roli při nasazení agentů?

Co to všechno znamená?

Propojme tyhle témata. Co nám dohromady říkají harness, autonomně běžící agenti a nové modely?

AI engineering dospívá. Už nejde jen o to, jestli model „umí“ danou věc. Klíčové je, jak ho zasadit do systému, který je spolehlivý a škálovatelný. Právě harness je vrstva, která rozhoduje o tom, jestli se z chytrého modelu stane produktivní kolega, nebo nespolehlivý experiment.

Zároveň vidíme, že se hranice automatizace posouvá k úlohám, o kterých jsme dřív ani neuvažovali. Agenti běžící ve smyčce otevírají nové možnosti ve výzkumu, optimalizaci i experimentování, tedy v oblastech, které dosud stály hlavně na drahé lidské práci. Klíčem ale není jen síla modelu, nýbrž kvalita evaluační funkce a dobře navržený harness.

A samotný modelový trh vysílá jasný signál: možností bude přibývat, ne ubývat. To je dobrá zpráva pro zákazníky i vývojáře, zároveň to ale zvyšuje nároky na samotné nasazení agentů a jejich správné využití. V současnosti vnímáme, že jsme zaplaveni obrovským množstvím možností, jak k jedné úloze přistoupit různými způsoby za pomoci odlišných agentních přístupů. Schopnost se v tom zorientovat je čím dál důležitější a postupně se stane základní výbavou každého dobrého vývojáře a výrazně ovlivní AI procesy.

Zajímavosti

‍Claude Design. Anthropic spustil nástroj pro UI prototypování postavený přímo na Claudovi. Z našeho pohledu nejde o náhradu designéra, ale spíš o explorační a rapid-prototyping nástroj, který na první pohled působí velmi použitelně. Podobně jako u programování ani tady zdaleka nenahrazuje designéra. Pokud ho ale v týmu nemáte, může to být dobrý start. A pokud ho máte, může fungovat jako užitečný nástroj.
‍OpenAI vydalo GPT-Image-2, nový model pro generování a editaci obrázků. Oproti předchůdci výrazně lepší práce s textem v obrázku, nebo s UI generováním. Zajímavé je, že model umí „přemýšlet", generuje více variant, sám kontroluje výstupy a zvládá produkovat slides, infografiky, UI mockupy nebo QR kódy. Prakticky okamžitě ho integrovaly Figma, Canva, Adobe Firefly a další.

AI News připravuje Martin Sumera.

Pokud jste na LinkedIn, AI News a App News vydáváme i tam – a vy se můžete přihlásit k odběru, aby vám při každém novém čísle zacinkal zvoneček.