Популярные ИИ протестировали на игре Mario. ChatGPT потерпел фиаско, а какая модель справилась лучше?

Freedom Broker О редакции
Дата публикации: 04.03.2025, 15:36
Mario

Если вы считали, что тестирование ИИ на игре Pokémon — это сложная задача, то это не так. Исследователи из Hao AI Lab, Калифорнийского университета в Сан-Диего, пошли дальше. ИИ заставили сыграть в Super Mario Bros. Специалисты уже опубликовали результаты испытаний, и оказалось, что Mario значительно сложнее для ИИ, чем Pokémon, пишет digitalbusiness.kz

Кто вышел победителем?

Лучшие результаты продемонстрировала Claude 3.7 от Anthropic, за ней последовали Claude 3.5 и Gemini 1.5 Pro от Google, в то время как GPT-4o от OpenAI с задачей справиться не смогла. Стоит отметить, что для тестов использовалась не та классическая Super Mario Bros., которая вышла в 1985 году. Игра была запущена в эмуляторе, интегрированном с фреймворком GamingAgent, который давал ИИ базовые инструкции для управления персонажем.

Какие сигналы получал ИИ

GamingAgent, разработанный Hao, диктовал ИИ следующие команды: «если рядом препятствие или враг, двигайся или прыгай влево, чтобы увернуться», а также предоставлял скриншоты из игры, чтобы объяснять происходящее. ИИ, в свою очередь, генерировал Python-код для управления Марио.

Пусть эти базовые инструкции и казались простыми, исследователи подчеркивают, что игра заставляла модели ИИ «учиться» планировать сложные маневры и разрабатывать стратегии. Интересно, что модели рассуждений, такие как o1 от OpenAI, которые продумывают свои действия шаг за шагом, показали худшие результаты, чем «нерассуждающие» модели. И это несмотря на то, что модели рассуждений чаще демонстрировали лучшие результаты в других тестах.

По словам исследователей, одной из причин, по которой модели рассуждений испытывают трудности в реальном времени, является задержка, необходимая для принятия решения. В отличие от статичных задач, реакция в Super Mario Bros. критична — секунда может стать решающей для успешного прыжка или смертельного падения.

Последние испытания ИИ в играх поднимают вопросы о «кризисе оценки» технологий, как выразился Андрей Карпати, научный сотрудник OpenAI.

«Я на самом деле не знаю, на какие метрики ИИ смотреть прямо сейчас», — сказал Карпати.

Наблюдать за тем, как ИИ играет в Марио — одно удовольствие