Открытые наборы данных и инструменты: обзор функции Hugging Face

2025-09-05 11:35

Наборы данных варьируются от небольших курируемых таблиц до петабайтных коллекций изображений, аудио или молекулярных структур. Открытый доступ к данным имеет решающее значение для воспроизводимых исследований и позволяет практикам за пределами хорошо финансируемых лабораторий экспериментировать с самыми современными моделями.

В последние годы релизы с открытыми данными, такие как рекомендательный набор Yambda-5B от Яндекса и набор данных изображений и текстов LAION 5B, стимулировали быстрые инновации.

В этом обзоре объясняются типы наборов данных, с которыми вы столкнетесь, выделяются надежные репозитории для поиска данных, рассматриваются несколько заметных новых выпусков и инструментов, а также предлагаются практические советы по работе с открытыми данными.

Давайте начнем!

Обзор типов наборов данных и тенденций

В целом, существует четыре типа наборов данных:

Структурированный

Высокоорганизованный и хранящийся в табличном формате (строки и столбцы). Легко искается с помощью SQL и идеально подходит для количественных задач, таких как финансы или системы бронирования. Примерами могут служить электронные таблицы, реляционные базы данных и CSV-файлы.

Неструктурированный

Данные без предопределенной схемы, такие как публикации в социальных сетях, электронные письма, изображения и аудио. На его долю приходится большая часть организационных данных, и часто требуется обработка естественного языка или методы компьютерного зрения.

Временные ряды

Последовательности наблюдений, индексированные по времени. Они имеют естественный временной порядок и используются в экономике, прогнозировании погоды, медицине и бесчисленном множестве других областей.

Геопространственные

Данные, связанные с координатами относительно Земли. Он включает векторный и растровый форматы и обычно хранится в географических информационных системах (ГИС). Приложения охватывают дистанционное зондирование, городское планирование и автономную навигацию.

Эти категории часто пересекаются. Например, пост в социальных сетях с GPS-тегами является как неструктурированным (текст/изображение), так и геопространственным. Понимание типа данных позволяет понять, как вы их храните, обрабатываете и моделируете.

Тренды в области открытых данных

Подобно тому, как LLM с открытым исходным кодом переживают быстрый рост, в последние несколько лет мы наблюдаем несколько тенденций в открытых наборах данных:

Масштаб и мультимодальность. Наборы данных выросли с тысяч примеров до миллиардов. LAION-5B содержит 5,85 миллиарда отфильтрованных CLIP пар изображение-текст, что в 14 раз больше, чем предыдущий набор данных LAION-400M. Yambda-5B от Яндекса предлагает почти 4,79 миллиарда взаимодействий с пользовательскими элементами для рекомендации музыки. Мета Наборы данных OMol25 и ODAC25 обеспечивают десятки миллионов квантово-химических вычислений. Такой масштаб позволяет исследователям обучать модели, которые лучше обобщают, но требуют эффективного инструментария (обсуждается ниже).
Акцент на открытость и воспроизводимость. Научные журналы и конференции все чаще требуют, чтобы наборы данных и протоколы оценки публиковались вместе с докладами. Публичные порталы, такие как Europe's data.europa.eu, агрегируют миллионы правительственных наборов данных, в то время как такие учреждения, как LAION, публикуют открытые мультимодальные наборы данных для использования сообществом.
Облачные репозитории. Многие открытые наборы данных находятся на облачных платформах (например, AWS Open Data) для обеспечения потоковой передачи и доступа по требованию. Библиотека наборов данных Hugging Face предоставляет единый интерфейс для загрузки тысяч наборов данных из концентратора с использованием потоковой передачи и отображения памяти.

Где найти наборы данных

Ниже приведены несколько ухоженных репозиториев, которые удовлетворяют различные потребности. Ко всем им можно получить доступ программным способом через Hugging Face Hub или загрузить напрямую. Многие из этих репозиториев можно просмотреть через хаб Hugging Face. Библиотека поддерживает загрузку наборов данных по их короткому имени (например, ) и обеспечивает потоковую загрузку и кэширование.datasetsload_dataset('squad')

Каггл

Платформа, на которой размещены тысячи наборов данных в различных областях, включая финансы, здоровье, спорт, NLP, компьютерное зрение и многое другое. Kaggle широко используется для соревнований, учебных пособий и исследований. Он предоставляет метаданные, обсуждения и ядра (блокноты кода) для исследования.

Репозиторий машинного обучения UCI

Один из старейших и наиболее цитируемых репозиториев для наборов данных машинного обучения. Он предлагает хорошо подобранные, чистые наборы данных, в первую очередь предназначенные для тестирования алгоритмов тестирования. Особенно популярен для задач табличного/классического машинного обучения, таких как классификация, регрессия и кластеризация.

Поиск в наборе данных Google

Поисковая система для наборов данных в Интернете. Он агрегирует наборы данных от издателей, репозиториев и исследовательских организаций, что делает их доступными для поиска в одном месте. Полезно для поиска как нишевых, так и больших наборов данных.

Открытый реестр данных AWS

Коллекция ценных облачных наборов данных, доступных для бесплатного доступа и анализа. Наборы данных охватывают геномику, климат, спутниковые снимки и многое другое. Преимущество: размещены на инфраструктуре AWS, поэтому их можно анализировать напрямую с помощью облачных инструментов.

Обзор последних открытых наборов данных

Yambda-5B (набор данных Yandex Music Multi-Interactions)

Яндекс выпустил Yambda-5B в 2025 году как самый большой открытый датасет для исследования рекомендательной системы. Он содержит 4,79 миллиарда анонимизированных взаимодействий пользователей с элементами, полученных от 1 миллиона пользователей и 9,39 миллиона треков. Взаимодействие включает в себя неявную обратную связь (слушает) и явную обратную связь (отметки «Нравится», «Дизлайки», удаления).

Каждая запись содержит идентификатор пользователя, идентификатор элемента, метку времени и флаг, указывающий, было ли взаимодействие органическим или инициировано рекомендацией. Данные хранятся в файлах Parquet и предлагаются в трех масштабах (события 50 M, 500 M и 5 B).is_organic

Некоторые исследователи и практики высоко оценили Ямбду. Аман Чадха (в настоящее время руководитель AWS GenAI, ранее Stanford AI, Apple) отмечает, что «наборы данных, такие как Yambda-5B, делают путь более плавным, преодолевая разрыв между академическими исследованиями и отраслевой актуальностью». Айсинь Сан (NTU Singapore) ожидает, что она получит широкое распространение в исследованиях рекомендательной системы, но предупреждает, что она адаптирована к конкретным рекомендательным условиям.

Специалисты по обработке и анализу данных из таких компаний, как Meta, Nextory и Flipkart, подчеркивают, что предыдущие эталонные наборы данных были либо слишком маленькими, либо нереалистичными, в то время как Yambda-5B наконец-то предоставляет ресурс веб-масштаба. Эти комментарии подчеркивают как волнение, так и нюансы в сообществе.

Говоря о сценариях использования, Yambda-5B позволяет проводить крупномасштабные рекомендательные исследования в промышленном масштабе. Его можно использовать для обучения моделей с поддержкой последовательностей (RNN, трансформаторы) и для изучения проблем холодного запуска с помощью встраивания звука.

LAION-5B (Крупномасштабный мультимодальный набор данных)

Релиз LAION-5B 2022 года предлагает 5,85 миллиарда пар изображение-текст с фильтрацией CLIP, что в 14 раз больше, чем у LAION-400M. Около 2,3 миллиарда пар являются английскими, 2,2 миллиарда — из 100+ других языков, а 1 миллиард состоит из имен или неприсваиваемых строк.

Набор данных включает в себя встраивания CLIP ViT-L/14, индексы k-ближайшего соседа, демонстрацию поиска и оценки обнаружения NSFW/водяных знаков. Он предназначен для исследований на больших мультимодальных моделях, таких как CLIP, DALL-E и ALIGN.

Сообщество искусственного интеллекта приветствовало LAION-5B как важный шаг на пути к демократизации исследований в области языка машинного зрения. Его открытый характер позволил независимым группам воспроизвести такие модели, как DALL-E, и изучить многоязычное выравнивание. В то же время исследователи подчеркивают необходимость тщательной фильтрации из-за некурируемого происхождения набора данных.

LAION-5B позволяет обучать и оценивать модели языка машинного зрения в беспрецедентных масштабах. Это позволяет работать над классификацией изображений без снимков, генерацией текста в изображение и кросс-модальным извлечением. Набор данных не курируется, то есть содержит дубликаты и потенциально тревожный контент; авторы рекомендуют использовать фильтры NSFW и предупреждают, что он не предназначен для производства

OMol25 (Открытые молекулы 2025)

Набор данных Meta FAIR Open Molecules 2025 (OMol25) решает проблему нехватки высококачественных молекулярных данных для обучения суррогатов квантовой химии с помощью машинного обучения. Набор данных предлагает 83 миллиона уникальных молекулярных систем с 83 элементами, охватывающих широкий спектр внутри- и межмолекулярных взаимодействий, явной сольватации, переменных зарядов/спиновых состояний и реакционноспособных структур. Системы включают в себя малые молекулы, биомолекулы, комплексы металлов и электролиты, с размерами до 350 атомов.

OMol25 позволяет обучать потенциалы нейронных сетей и модели силовых полей для таких задач, как поиск лекарств, разработка материалов и прогнозирование реакций. Он значительно расширяет химическое разнообразие и размеры доступных систем по сравнению с более ранними наборами данных.

ODAC25 (Открытый ЦАП 2025)

Набор данных Open DAC 2025 (ODAC25), выпущенный Meta в августе 2025 года, нацелен на климатическую инженерию. Он содержит почти 70 миллионов одноточечных расчетов адсорбции CO?, H?O, N? и O? DFT в 15 000 металлоорганических каркасах (MOF).

ODAC25 обеспечивает химическое и конфигурационное разнообразие за счет функционализированных MOF, высокоэнергетических размещений Grand Canonical Monte Carlo (GCMC) и синтетически сгенерированных каркасов. Он также повышает точность расчетов DFT и обработки гибких MOF по сравнению со своим предшественником ODAC23.

ODAC25 обеспечивает комплексный эталон для разработки материалов сорбента для прямого улавливания воздуха. Исследователи могут использовать его для обучения моделей, прогнозирующих энергию адсорбции и коэффициенты закона Генри, ускоряя поиск материалов, улавливающих CO? из влажного воздуха. Как и OMol25, ODAC25 является специализированным и требует знаний в предметной области.

Практические советы по работе с наборами данных

Вот несколько рекомендаций и практических советов, на которые следует обратить внимание при использовании открытых наборов данных: Проверьте лицензирование и конфиденциальность. Перед использованием ознакомьтесь с условиями лицензирования набора данных и соображениями конфиденциальности. Например, Yambda анонимизирует взаимодействие с пользователем, в то время как LAION предоставляет оценки обнаружения NSFW и призывает к осторожности. Убедитесь, что лицензия набора данных позволяет использовать его по назначению.

Используйте инструменты для изучения данных. Библиотека наборов данных Hugging Face упрощает загрузку и предварительную обработку данных. Библиотека кэширует данные на диске и использует Apache Arrow для быстрого доступа к столбцам. Она также интегрируется с PyTorch и TensorFlow для обучения. Вы можете выполнять потоковую передачу больших наборов данных и даже работать со сжатыми файлами:

Используйте метрики оценки. Библиотека поставляется с набором метрик (например, accuracy, ROUGE, BLEU) и поддерживает пользовательские метрики.datasets
Используйте индексацию и поиск. Для больших наборов данных, таких как LAION-5B, добавление индекса FAISS или индекса эластичного поиска обеспечивает эффективный поиск сходства. Метод из библиотеки может построить такой индекс; LAION предоставляет предварительно вычисленные индексы для удобства.add_faiss_indexdatasets
Начните с малого. Если полный набор данных слишком велик для ваших ресурсов, работайте с меньшими версиями (например, Yambda-50M или Yambda-500M) или выборкой подмножеств с использованием потоковой передачи набора данных, чтобы избежать перегрузки памяти.
Проверка качества данных. Выполнение проверок работоспособности (удаление дубликатов, анализ распределения) перед обучением. LAION-5B не курируется и может содержать дубликаты и шум; очистка повышает производительность модели.

Инструменты и библиотеки для наборов данных в приложении «Обнимающее лицо»

Вот несколько инструментов, которые вы должны знать при работе с наборами данных.

datasetsбиблиотека. Являясь основным компонентом экосистемы Hugging Face, наборы данных предоставляют унифицированный API для загрузки, разделения и потоковой передачи наборов данных. Он поддерживает множество форматов данных (CSV, JSON, текст, Parquet) и автоматически кэширует загрузки. Библиотека реализует преобразования (карта, фильтр, перемешивание), конкатенацию наборов данных и индексацию наборов данных. Она также включает метрики производительности и интегрируется с преобразователями для предоставления наборов данных непосредственно тренажерам моделей.
huggingface_hub. Эта библиотека Python обеспечивает программное взаимодействие с Hugging Face Hub. Вы можете аутентифицироваться, загружать новые наборы данных, создавать карточки наборов данных и данные версий. Он предоставляет такие функции, как hf_hub_download для извлечения файлов без API наборов данных и upload_folder для отправки больших данных. В сочетании с Git LFS он обеспечивает контроль версий для многогигабайтных файлов.
Просмотрщики данных и пространства. Hugging Face Hub предлагает средство просмотра наборов данных, которое позволяет просматривать образцы наборов данных в Интернете, и платформу Spaces для создания интерактивных демонстраций. Например, LAION предоставляет поисковую демонстрацию для LAION-5B, а Яндекс предлагает базовые сценарии оценки в виде Hugging Face Spaces. Развертывание собственного Space может сделать ваш набор данных более доступным для сообщества.

Дополнительные библиотеки. При анализе больших объемов данных такие библиотеки, как Pandas, Polars или DuckDB, могут помочь в работе с столбцами. Для исследования рекомендательных систем такие фреймворки, как RecBole и LensKit, хорошо интегрируются с наборами данных, такими как Yambda. В химической области TorchMD-Net и SchNetPack предоставляют потенциалы нейронных сетей, которые могут потреблять OMol25 или ODAC25.

Заключение

Открытые наборы данных составляют основу современных исследований в области искусственного интеллекта.

В этом обзоре выделены различные виды данных (структурированные, неструктурированные, временные ряды и геопространственные), а также обозначены основные Такие тенденции, как рост мультимодальных наборов данных в миллиардах масштабов и облачных репозиториев данных, а также появление нескольких надежных источников для обнаружения наборов данных.

Недавние релизы, в том числе Yambda-5B от Яндекса для рекомендательных систем, набор данных изображений и текста LAION 5B, набор данных по химии OMol25 от Meta и набор данных сорбента ODAC25, демонстрируют, как открытые данные могут катализировать инновации в различных областях, от потоковой передачи музыки до квантовой химии.

Изучая эти ресурсы, не забывайте проверять лицензирование и конфиденциальность, использовать соответствующие инструменты для загрузки и индексирования и начинать с управляемых подмножеств.

Hugging Face и библиотеки обеспечивают эффективные конвейеры для работы с данными в большом масштабе. Внося свой вклад в проекты с открытыми данными и делясь собственными наборами данных, вы помогаете создать экосистему, которая ускоряет открытия и демократизирует исследования в области искусственного интеллекта.datasetshuggingface_hub

Источник: huggingface.co

Открытые наборы данных и инструменты: обзор функции Hugging Face

Комментарии: