Genie 3: ИИ, который меняет реальность!
Как Google DeepMind создал систему для динамических симуляций
В начале декабря Google DeepMind выпустила Genie 2. Семейство систем искусственного интеллекта Genie — это то, что известно как мировые модели. Они способны генерировать изображения по мере того, как пользователь — будь то человек или, что более вероятно, автоматизированный агент ИИ — перемещается по миру, который симулирует программное обеспечение. Получающееся видео с моделью в действии может выглядеть как видеоигра, но DeepMind всегда позиционировала Genie 2 как способ обучения других систем ИИ для лучшего выполнения задач, для которых они предназначены. С новой моделью Genie 3, о которой лаборатория объявила во вторник, DeepMind считает, что создала еще лучшую систему для обучения агентов ИИ.
На первый взгляд, скачок между Genie 2 и 3 не так драматичен, как тот, что модель совершила в прошлом году. С Genie 2 система DeepMind стала способна генерировать 3D-миры и могла точно восстанавливать часть окружения даже после того, как пользователь или агент ИИ покидал его для исследования других частей сгенерированной сцены. Согласованность окружения часто была слабым местом предыдущих мировых моделей. Например, система Decart’s Oasis с трудом запоминала планировку уровней Minecraft, которые она генерировала.
Для сравнения, улучшения, предлагаемые Genie 3, кажутся более скромными, но на брифинге для прессы, который Google провел в преддверии сегодняшнего официального анонса, Шломи Фрухтер, директор по исследованиям в DeepMind, и Джек Паркер-Холдер, научный сотрудник DeepMind, утверждали, что они представляют собой важные шаги на пути к общему искусственному интеллекту.

Так что же именно Genie 3 делает лучше? Начнем с того, что она выдает видео в формате 720p вместо 360p, как ее предшественница. Она также способна поддерживать «согласованную» симуляцию дольше. Genie 2 имела теоретический предел до 60 секунд, но на практике модель часто начинала галлюцинировать гораздо раньше. В отличие от этого, DeepMind заявляет, что Genie 3 способна работать несколько минут, прежде чем начнет производить артефакты.
Также новой в модели является возможность, которую DeepMind называет «управляемые события в мире». Genie 2 была интерактивной в том смысле, что пользователь или агент ИИ мог вводить команды движения, и модель отвечала после нескольких мгновений, необходимых для генерации следующего кадра. Genie 3 делает это в режиме реального времени. Более того, можно настраивать симуляцию с помощью текстовых подсказок, которые указывают Genie изменить состояние мира, который она генерирует.

В демонстрации, которую показала DeepMind, модели было сказано вставить стадо оленей в сцену, где человек катается на лыжах с горы. Олени двигались не самым реалистичным образом, но это и есть главная особенность Genie 3, говорит DeepMind.
Как уже упоминалось ранее, лаборатория в первую очередь рассматривает модель как инструмент для обучения и оценки агентов ИИ. DeepMind говорит, что Genie 3 можно использовать для обучения систем ИИ справляться со сценариями «что, если», которые не охвачены их предварительным обучением. «Многое должно произойти, прежде чем модель можно будет развернуть в реальном мире, но мы видим в этом способ более эффективного обучения моделей и повышения их надежности», — сказал Фрухтер, указав, например, на сценарий, где Genie 3 можно использовать для обучения беспилотного автомобиля, как безопасно избежать столкновения с пешеходом, который выходит перед ним.
Несмотря на улучшения, которые DeepMind внесла в Genie, лаборатория признает, что предстоит еще много работы. Например, модель не может генерировать реальные локации с идеальной точностью и испытывает трудности с рендерингом текста. Более того, чтобы Genie была по-настоящему полезной, DeepMind считает, что модель должна быть способна поддерживать симулированный мир в течение часов, а не минут. Тем не менее, лаборатория считает, что Genie готова оказать реальное влияние.
«Мы уже на том этапе, когда вы не стали бы использовать [Genie] в качестве единственной среды для обучения, но вы, безусловно, можете найти вещи, которые вы бы не хотели, чтобы агенты делали, потому что если они действуют небезопасно в некоторых условиях, даже если эти условия не идеальны, все равно полезно это знать», — сказал Паркер-Холдер. «Уже видно, к чему это идет. Это будет становиться все более полезным по мере совершенствования моделей».
На данный момент Genie 3 недоступна для широкой публики. Однако DeepMind заявляет, что работает над тем, чтобы сделать модель доступной для дополнительных тестировщиков.









