Команда Google DeepMind в 2022 году представила систему для обучения роботов новым задачам нейросеть — Robotics Transformer (RT-1). Теперь вышла RT-2, с помощью которой компания начала обучать своих роботов.
RT-1 использовалась для обучения Everyday Robot более чем 700 задачам. Система включала базу данных из 130 тысяч демонстраций, что, по словам команды DeepMind, привело к успешному выполнению заданий в 97% случаев.
Теперь же глава отдела робототехники DeepMind Винсент Ванхоук рассказал, что RT-2 позволяет роботам эффективно переносить концепции, изученные на относительно небольших наборах данных, в различные сценарии. Это новая версия того, что компания называет моделью видения-языка-действия (VLA). Модель учит роботов лучше распознавать визуальные и языковые шаблоны, интерпретировать инструкции и делать выводы о том, какие объекты лучше всего подходят для запроса. Она обучалась на веб-данных и данных робототехники, используя достижения исследований в больших языковых моделях, таких как Bard от Google, и комбинируя их с роботизированными данными. Модель понимает указания на языках, отличных от английского.
«RT-2 демонстрирует улучшенные возможности обобщения, а также семантическое и визуальное понимание за пределами обучающих данных», — объясняют в Google.
Нейросеть может интерпретировать новые команды и реагировать на команды пользователя путём выполнения элементарных рассуждений, в том числе о категориях объектов. Она способна находить лучший инструмент для конкретной новой задачи на основе существующей контекстной информации.
Ванхоук приводит сценарий, в котором робота просят выбросить мусор. Во многих моделях пользователь должен научить его определять, что считается мусором, а затем обучить собирать отходы и выбрасывать их.
«RT-2 уже имеет представление о том, что такое мусор, и может идентифицировать его без специального обучения. У него даже есть представление о том, как выбрасывать мусор, хотя его никогда не обучали этому действию. И подумайте об абстрактной природе мусора — то, что было пакетом чипсов или банановой кожурой, становится мусором после того, как вы съедите содержимое. RT-2 может понять это из своих данных для обучения языку зрения и выполнить свою работу».
Исследователи протестировали RT-2 с манипулятором в кухне, попросив робота решить, из чего сделать хороший импровизированный молоток (это был камень), и выбрать напиток для истощенного человека (Red Bull). Они также сказали роботу переместить банку из-под Coca-Cola к фотографии Тейлор Свифт.
Команда говорит, что уровень эффективности при выполнении новых задач улучшился с 32% до 62% при переходе от RT-1 к RT-2.