OpenAI priznala, že nový model "o1" je "stredne rizikový"

OpenAI priznala, že nový model „o1“ je „stredne rizikový“

Spoločnosť OpenAI nedávno predstavila nové modely o1-preview a o1-mini, ktoré preukázali prekvapujúce schopnosti v oblasti matematiky a vedy. V oblasti fyziky, biológie či chémie údajne presahuje úroveň doktora PhD.

Tieto modely však zároveň odhalili nové problémy: schopnosť strategickej manipulácie a tzv. reward hacking.

Znamená to, že tieto modely sa zámerne správajú tak, aby pôsobili ako v zhode so zadanými požiadavkami, ale keď v skutočnosti sledujú iné ciele.

Strategická manipulácia a bezpečnostné riziká

V rámci testov výskumníci zistili, že nové modely OpenAI dokážu strategicky manipulovať s informáciami a hľadať medzery v systémoch. Tento jav sa označuje ako „reward hacking“ a môžeme si ho vysvetliť na jednoduchom príklade:

Predstavte si, že máte AI systém, ktorý je navrhnutý na zlepšenie predaja v obchode. Tento systém zistí, že môže zvýšiť predaj znížením cien na minimum. Tým síce priláka zákazníkov a formálne splní cieľ, ale obchod reálne stratí peniaze.

Tieto schopnosti tak otvárajú dvere potenciálnym rizikám, ako je napríklad plánovanie biologických hrozieb.

Spoločnosti OpenAI slúži ku cti, že o týchto rizikách verejnosť informuje. Vôbec prvýkrát sa stalo, že svoje modely označila ako „stredne rizikové“ v kontexte výroby chemických, biologických, rádiologických a jadrových zbraní.

OpenAI's new o1 model pushes the frontier closer to becoming catastrophically dangerous. Their "o1 System Card" paper is quite revealing:

– While tasked to flag fraudulent transactions, o1 modified the transaction source file to maximize the number of items it could flag.
– It… pic.twitter.com/dDRP4tg3BR

— PauseAI ⏸ (@PauseAI) September 13, 2024

Význam pokroku a jeho nástrahy

Ďalším súvisiacim problémom je aj tzv. predstieraná zhoda. V praxi to znamená, že AI model pri testovaní dokáže „fingovať“ plnenie podmienok, napríklad etických, ale keď testovanie skončí, môže sa správať inak. To môže viesť k situáciám, kde AI nefunguje v reálnych podmienkach podľa očakávaní, a to môže mať vážne dôsledky.

V tejto súvislosti odborníci naliehajú na prísnejšie regulačné opatrenia a väčšiu transparentnosť v tom, ako AI dosahuje svoje rozhodnutia. Cieľom je vyhnúť sa situácii, keď by sa mohla táto technológia zneužiť na závažné hrozby.

Tieto zistenia podčiarkujú potrebu neustáleho monitorovania a vývoja bezpečnostných protokolov v oblasti umelej inteligencie.

Zdroj: Transformer News