PolymathicAI выпустила огромный открытый датасет для ML-исследований -*The Well*

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Это коллекция численных физических симуляций общего назначения — всего ~15 ТБ данных, разбитых на 16 разнообразных наборов, включающих такие области, как:

• динамика жидкостей и турбулентность

• биологические системы

• акустическое рассеяние

• магнито-гидродинамика и моделирование внегалактических сред

• даже симуляции сверхновых ?

И всё это можно использовать для обучения и оценки моделей ML.

Зачем это нужно:

ИИ и ML всё чаще используются для ускорения или замены тяжёлых физических симуляций (surrogate modeling), но до сих пор публичные данные были фрагментированы и маленькие. “The Well” даёт единый формат, большой объём и сложные динамические процессы - отличная база для:

• обучения нейросетей, которые предсказывают физическое поведение

• бенчмарков и сравнительных исследований

• создания более быстрых моделей вместо тяжёлых классических симуляторов

Как использовать:

Проект предоставляет Python/PyTorch API - можно легко загрузить данные в даталоадер и использовать их в тренировке моделей. Данные доступны также через Hugging Face и в формате HDF5 для удобства.

Это открытый ресурс с BSD-3-Clause лицензией, ориентированный на высокоуровневые ML-задачи и научные исследования.

Это может стать новым стандартным набором для обучения моделей, которые симулируют сложные физические системы вместо традиционных вычислительных методов.

Репозиторий на GitHub: github.com/PolymathicAI/the_well


Источник: vk.com

Комментарии: