Video: AI Robot od Google chodí po kanceláriách a plní úlohy s mimoriadnou presnosťou
Spoločnosť DeepMind múdro využila niektoré z robotov Every Day Robots po tom, čo Google projekt minulý rok zatvoril v súvislosti s rozsiahlym prepúšťaním.
Umelá inteligencia (AI) otvára dvere pre novú generáciu robotov, ktoré dokážu porozumieť a reagovať na pokyny prirodzenejším spôsobom. Tím DeepMind Robotics od Google predviedol pôsobivú ukážku robota, ktorý sa dokáže pohybovať v kancelárii a plniť úlohy na základe jednoduchých inštrukcií.
V demonštračných videách robot reaguje na pokyny v 9000 štvorcových stôp veľkej kancelárii. Napríklad v jednom z videí je robot nasmerovaný, aby sledoval obrázok na tabuli a úspešne došiel do testovacej miestnosti pre robotiku. Robot sa po chvíli premýšľania skutočne vydá na dlhú cestu do cieľa, ktorý bol na tabuli označený modrou farbou.
How can Gemini 1.5 Pro’s long context window help robots navigate the world? 🤖
A thread of our latest experiments. 🧵 pic.twitter.com/ZRQqQDEw98
— Google DeepMind (@GoogleDeepMind) July 11, 2024
Pred prezentáciou svojich schopností boli roboti najskôr oboznámení s kancelárskym prostredím. To sa dosiahlo pomocou tzv. Multimodal Instruction Navigation with demonstration Tours (MINT). Táto technológia spočíva v tom, že sa robotovi ukáže kancelária prostredníctvom vopred nahraného videa, v ktorom človek prechádza priestorom a komentuje rôzne orientačné body.
We took the robots on a tour of specific areas in a real-world setting, highlighting key places to recall – such as "Lewis’s desk" or "temporary desk area". Then, they were asked to lead us to these locations. 🏢
Watch more. ↓ pic.twitter.com/Sptm6q31CL
— Google DeepMind (@GoogleDeepMind) July 11, 2024
Spoločnosť Google tvrdí, že robot mal približne 90-percentnú úspešnosť vo viac ako 50 interakciách so zamestnancami. Tie spočívali vo rôznych formách komunikácie, pričom robot zvládol reagovať na písané a kreslené príkazy, ako aj na gestá.
A limited context length makes it a challenge for many AI models to recall environments. 🌐
Powered with 1.5 Pro’s 1 million token context length, our robots can use human instructions, video tours, and common sense reasoning to successfully find their way around a space. pic.twitter.com/eIQbtjHCbW
— Google DeepMind (@GoogleDeepMind) July 11, 2024
Zdroje: techcrunch