OpenAI priznala, že nový model „o1“ je „stredne rizikový“
Spoločnosť OpenAI nedávno predstavila nové modely o1-preview a o1-mini, ktoré preukázali prekvapujúce schopnosti v oblasti matematiky a vedy. V oblasti fyziky, biológie či chémie údajne presahuje úroveň doktora PhD.
Tieto modely však zároveň odhalili nové problémy: schopnosť strategickej manipulácie a tzv. reward hacking.
Znamená to, že tieto modely sa zámerne správajú tak, aby pôsobili ako v zhode so zadanými požiadavkami, ale keď v skutočnosti sledujú iné ciele.
Strategická manipulácia a bezpečnostné riziká
V rámci testov výskumníci zistili, že nové modely OpenAI dokážu strategicky manipulovať s informáciami a hľadať medzery v systémoch. Tento jav sa označuje ako „reward hacking“ a môžeme si ho vysvetliť na jednoduchom príklade:
Predstavte si, že máte AI systém, ktorý je navrhnutý na zlepšenie predaja v obchode. Tento systém zistí, že môže zvýšiť predaj znížením cien na minimum. Tým síce priláka zákazníkov a formálne splní cieľ, ale obchod reálne stratí peniaze.
Tieto schopnosti tak otvárajú dvere potenciálnym rizikám, ako je napríklad plánovanie biologických hrozieb.
Spoločnosti OpenAI slúži ku cti, že o týchto rizikách verejnosť informuje. Vôbec prvýkrát sa stalo, že svoje modely označila ako „stredne rizikové“ v kontexte výroby chemických, biologických, rádiologických a jadrových zbraní.
OpenAI's new o1 model pushes the frontier closer to becoming catastrophically dangerous. Their "o1 System Card" paper is quite revealing:
– While tasked to flag fraudulent transactions, o1 modified the transaction source file to maximize the number of items it could flag.
– It… pic.twitter.com/dDRP4tg3BR— PauseAI ⏸ (@PauseAI) September 13, 2024
Význam pokroku a jeho nástrahy
Ďalším súvisiacim problémom je aj tzv. predstieraná zhoda. V praxi to znamená, že AI model pri testovaní dokáže „fingovať“ plnenie podmienok, napríklad etických, ale keď testovanie skončí, môže sa správať inak. To môže viesť k situáciám, kde AI nefunguje v reálnych podmienkach podľa očakávaní, a to môže mať vážne dôsledky.
V tejto súvislosti odborníci naliehajú na prísnejšie regulačné opatrenia a väčšiu transparentnosť v tom, ako AI dosahuje svoje rozhodnutia. Cieľom je vyhnúť sa situácii, keď by sa mohla táto technológia zneužiť na závažné hrozby.
Tieto zistenia podčiarkujú potrebu neustáleho monitorovania a vývoja bezpečnostných protokolov v oblasti umelej inteligencie.
Zdroj: Transformer News