Сириус, Россия — 29 ноября 2024 года Ученые из лаборатории исследований искусственного интеллекта T-Bank AI Research и Института AIRI при участии студентов из МФТИ, Сколтеха и Университета Иннополис создали первую открытую среду для исследований и разработки алгоритмов в области контекстного обучения с подкреплением — XLand-MiniGrid. Это опубликованная в открытом доступе для исследователей по всему миру виртуальная среда, в которой искусственный интеллект (ИИ) обучается принимать решения и выполнять новые действия. Новая среда уже получила признание в международном исследовательском сообществе. Эксперименты в XLand-MiniGrid уже провели исследователи из Google DeepMind, Калифорнийского университета в Беркли и Оксфордского университета. Научная статья XLand-MiniGrid: Scalable Meta-Reinforcement Learning Environments in JAX, описывающая создание среды, была принята на крупнейшую международную конференцию в области искусственного интеллекта — NeurIPS 2024. В этом году конференция пройдет с 10 по 15 декабря в Ванкувере, Канада. Контекстное обучение с подкреплением (In-Context RL) — это новое направление в ИИ, где модели быстро адаптируются к новым задачам, используя подсказки и контекст, а не требуют длительного обучения с нуля. Это позволяет ИИ эффективно взаимодействовать с окружающей средой и дообучаться на лету. In-Context RL особенно полезно в таких областях, как персонализированные рекомендации, управление роботами и автономными транспортными средствами, где требуется мгновенная адаптация к новым условиям. Ранее исследователи сталкивались с ограничениями в существующих средах для контекстного обучения с подкреплением. Корпоративные среды крупных компаний, таких как Google DeepMind, закрыты для внешних пользователей и используются только для внутренних нужд. Публично доступные инструменты в основном предлагают однотипные и легкие задачи для обучения, что затрудняет разработку и тестирование сложных алгоритмов. В отличие от уже существующих сред, XLand-MiniGrid находится в открытом доступе и позволяет менять условия обучения прямо в процессе работы. Это упрощает моделирование множества вариативных задач разного уровня сложности, помогает создавать более надежные и адаптивные модели искусственного интеллекта. Среда создана на базе JAX — технологии для разработки высокопроизводительных программ. В отличие от более медленных аналогов, XLand-MiniGrid выполняет миллиарды операций в секунду. В таких средах благодаря высокой вариативности и количеству действий можно собирать огромные датасеты. Например, в XLand-MiniGrid собрано 100 млрд примеров действий искусственного интеллекта в 30 тысячах задач. Это позволяет использовать готовые датасеты для обучения, а не проводить его каждый раз с нуля. Все это способствует новым открытиям в области In-Context RL, снижая затраты и экономя ресурсы на проведение исследований. Рис. 1. На графике показано, что XLand-MiniGrid позволяет агентам совершать до 1 трлн взаимодействий со средой за три дня, что ускоряет эксперименты и проверку гипотез. Однако больше половины попыток обучения агентов заканчиваются неудачей. Несмотря на повышение среднего качества агентов, медианное значение остается на нуле, что подчеркивает высокую сложность самой среды для текущего уровня технологий, а значит, может стимулировать их улучшение Вячеслав Синий, исследователь научной группы AI Alignment, лаборатория исследований искусственного интеллекта T-Bank AI Research: «Мы пришли в область контекстного обучения с подкреплением, когда она еще зарождалась, и поэтому не нашли ни одного подходящего инструмента для оценки новых идей. Стало понятно, что это проблема для многих специалистов, а значит, она должна быть решена одной из первых. Поэтому появился XLand-MiniGrid. Наша работа сразу привлекла внимание других исследователей в области, и уже сейчас появляются статьи, где авторы используют среду для проверки своих методов». Владислав Куренков, руководитель научной группы «Адаптивные агенты», Институт AIRI: «Контекстное обучение с подкреплением — одна из самых многообещающих областей науки в сфере ИИ, потому что позволяет получать агентов, адаптирующихся к новым сценариям на лету на основе внешнего фидбэка. Среда, которую мы разработали, позволит значительно ускорить сравнение и создание новых алгоритмов в этой области».