Novinky od Anthropicu – vylepšené AI modely a PC asistent!

Spoločnosť Anthropic prichádza s významnou aktualizáciou svojich jazykových modelov umelej inteligencie. Nový Claude 3.5 Sonnet prináša schopnosti prevyšujúce model ChatGPT 4o. Firma zároveň ohlásila príchod rýchlejšieho a úspornejšieho modelu Claude 3.5 Haiku. Ale to nie je všetko. Pozornosť sa totiž sústredí najmä na prvého ľahko dostupného AI asistenta, ktorý dokáže ovládať váš počítač.

Výrazné zlepšenie v programovaní, ale aj iných oblastiach

Nový Sonnet 3.5 exceluje najmä v oblasti programovania, ktoré bolo jeho silnou stránkou aj doposiaľ.

V benchmarku SWE-bench (riešenie softvérových problémov) dosiahol skóre 49 %, čím výrazne prekonáva všetky dostupné modely vrátane špecializovaných systémov od OpenAI. Spoločnosť GitLab, ktorá model testovala pre DevSecOps úlohy, zaznamenala až 10 % zlepšenie v schopnosti uvažovania bez zvýšenia latencie.

Model 3.5 Haiku, ktorý príde koncom mesiaca, ponúkne podobný výkon ako predchádzajúci vlajkový model Opus. V teste SWE-bench dosahuje pozoruhodných 40,6%, čím prekonáva mnohé pokročilé modely vrátane pôvodného Sonnetu. Prináša nižšiu latenciu a lepšiu prácu s nástrojmi. Haiku sa hodí najmä pre používateľské produkty a spracovanie veľkých objemov dát, ako sú cenníky či záznamy o nákupoch.

Dostupnosť a čísla

Oba modely budú dostupné cez API Anthropic, Amazon Bedrock a Google Cloud Vertex AI. Pred uvedením prešli bezpečnostným testovaním v spolupráci s inštitútmi US AI Safety Institute a UK Safety Institute.

V nasledujúcej tabuľke vidíme ich porovnanie s inými modelmi – zhora nadol postupne v oblasti:
1) uvažovania na úrovni absolventa
2) vedomostí na úrovni vysokoškoláka
3) kódovania
4) matematických úloh
5) stredoškolských matematických súťaží
6) otázok a odpovedí o obrázkoch
7) riešenia softvérových problémov
8) autonómneho používania nástrojov.

Umelá inteligencia, ktorá vie používať počítač ako človek

Ešte prevratnejšou novinkou však je, že Claude sa v novej verzii 3.5 Sonnet naučil ovládať počítačové rozhrania podobne ako človek.

Vie klikať myšou, písať text a pracovať s rôznymi programami.

Táto funkcia je zatiaľ v beta verzii a občas robí chyby. V teste OSWorld však nový Claude 3.5 Sonnet dosiahol pozoruhodné výsledky – v kategórii práce so snímkami obrazovky získal skóre 14,9 %, čo je takmer dvojnásobok oproti druhému najlepšiemu AI systému. Pri úlohách, ktoré mohol riešiť vo viacerých krokoch, dosiahol dokonca skóre 22 %.

Viaceré významné spoločnosti už začali túto technológiu testovať.

Firmy ako Asana, Canva či DoorDash využívajú Claude na komplexné úlohy vyžadujúce desiatky až stovky krokov. Replit napríklad implementuje túto funkciu do svojho produktu Replit Agent, kde Claude hodnotí vyvíjané aplikácie v reálnom čase.

Praktická ukážka

Na záver si pozrime ukážku, ako Claude 3.5 Sonnet v úlohe AI agenta vyrieši zadanie pripraviť v určenej lokalite výlet pri východe slnka: Postupne vyhľadá vhodné pozorovacie miesto na stanovenom moste, otvorí mapu, nájde trasu, vyhľadá čas východu slnka v určený deň a zaznamená udalosť do kalendára. Doplní aj detaily, napríklad čas trvania jazdy, ale aj poznámku, že je vhodné sa teplo obliecť, lebo ráno môže byť zima.

Exciting news in AI: Anthropic just launched Claude 3.5 Sonnet—the first AI that can use a computer like we do!

Anthropic has announced two major updates: an upgraded Claude 3.5 Sonnet and the new Claude 3.5 Haiku.

The standout feature?

Claude 3.5 Sonnet now has a "computer… pic.twitter.com/NkzFu332lt

— Abu (@abuchanlife) October 22, 2024