Исследователи Университета Иннополис, T-Bank AI Research и AIRI создали первую открытую платформу для контекстного обучения с подкреплением |
||
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2024-11-30 16:02 Научные сотрудники из Исследовательского центра в сфере искусственного интеллекта российского ИТ-вуза, лаборатории исследований искусственного интеллекта T-Bank AI Research и Института AIRI при участии студентов из МФТИ и Сколтеха создали виртуальную среду для исследований и разработки алгоритмов в области контекстного обучения с подкреплением — XLand-MiniGrid. Научная статья о создании среды принята на международную конференцию NeurIPS 2024 в Канаде.
Контекстное обучение с подкреплением (In-Context RL) — новое направление в области искусственного интеллекта, где модели быстро адаптируются к новым задачам, используя подсказки и контекст, а не требуют длительного обучения с нуля. Это позволяет ИИ эффективно взаимодействовать с окружающей средой и дообучаться в процессе. In-Context RL особенно полезен в персонализированных рекомендациях, управлении роботами и автономными транспортными средствами, где требуется мгновенная адаптация к новым условиям. По словам исследователей, ранее они сталкивались с ограничениями в существующих средах для контекстного обучения с подкреплением. Корпоративные среды крупных компаний, например Google DeepMind, закрыты для внешних пользователей и используются только для внутренних задач. Публично доступные инструменты в основном предлагают однотипные и лёгкие задачи для обучения, что затрудняет разработку и тестирование сложных алгоритмов. XLand-MiniGrid находится в открытом доступе и позволяет менять условия обучения прямо в процессе работы. Это упрощает моделирование множества вариативных задач разного уровня сложности, помогает создавать более надежные и адаптивные модели искусственного интеллекта. Среда создана на базе JAX — технологии для разработки высокопроизводительных программ. XLand-MiniGrid выполняет миллиарды операций в секунду. Эксперименты в XLand-MiniGrid уже провели в Google DeepMind, Калифорнийском университете в Беркли и Оксфордском университете. Вячеслав Синий, исследователь научной группы AI Alignment, лаборатория исследований искусственного интеллекта T-Bank AI Research: «Мы пришли в область контекстного обучения с подкреплением, когда она ещё зарождалась, и поэтому не нашли ни одного подходящего инструмента для оценки новых идей. Стало понятно, что это проблема для многих специалистов, а значит должна быть решена одной из первых. Поэтому появился Xland-Minigrid. Наша работа сразу привлекла внимание других исследователей в области, и уже сейчас появляются статьи, где авторы используют среду для проверки своих методов». Владислав Куренков, руководитель группы «Адаптивные агенты» Института AIRI, главный аналитик данных Лаборатории искусственного интеллекта в медицине Университета Иннополис: «XLand-MiniGrid предоставляет возможности для создания обширных датасетов, благодаря разнообразию задач и широкому набору действий. В рамках этой среды собрано 100 миллиардов примеров поведения ИИ, охватывающих 30 тысяч различных задач. Это позволяет использовать готовые датасеты для обучения моделей, исключая необходимость начинать процесс обучения с нуля, что способствует прогрессу в области In-Context RL, одновременно сокращая затраты и оптимизируя ресурсы, необходимые для проведения исследований».
Источник: media.innopolis.university Комментарии: |
|