Открытые наборы данных и инструменты: обзор функции Hugging Face |
||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2025-09-05 11:35 Наборы данных варьируются от небольших курируемых таблиц до петабайтных коллекций изображений, аудио или молекулярных структур. Открытый доступ к данным имеет решающее значение для воспроизводимых исследований и позволяет практикам за пределами хорошо финансируемых лабораторий экспериментировать с самыми современными моделями. В последние годы релизы с открытыми данными, такие как рекомендательный набор Yambda-5B от Яндекса и набор данных изображений и текстов LAION 5B, стимулировали быстрые инновации. В этом обзоре объясняются типы наборов данных, с которыми вы столкнетесь, выделяются надежные репозитории для поиска данных, рассматриваются несколько заметных новых выпусков и инструментов, а также предлагаются практические советы по работе с открытыми данными. Давайте начнем! Обзор типов наборов данных и тенденций В целом, существует четыре типа наборов данных: ![]() Структурированный Высокоорганизованный и хранящийся в табличном формате (строки и столбцы). Легко искается с помощью SQL и идеально подходит для количественных задач, таких как финансы или системы бронирования. Примерами могут служить электронные таблицы, реляционные базы данных и CSV-файлы. Неструктурированный Данные без предопределенной схемы, такие как публикации в социальных сетях, электронные письма, изображения и аудио. На его долю приходится большая часть организационных данных, и часто требуется обработка естественного языка или методы компьютерного зрения. Временные ряды Последовательности наблюдений, индексированные по времени. Они имеют естественный временной порядок и используются в экономике, прогнозировании погоды, медицине и бесчисленном множестве других областей. Геопространственные Данные, связанные с координатами относительно Земли. Он включает векторный и растровый форматы и обычно хранится в географических информационных системах (ГИС). Приложения охватывают дистанционное зондирование, городское планирование и автономную навигацию. Эти категории часто пересекаются. Например, пост в социальных сетях с GPS-тегами является как неструктурированным (текст/изображение), так и геопространственным. Понимание типа данных позволяет понять, как вы их храните, обрабатываете и моделируете. Тренды в области открытых данных Подобно тому, как LLM с открытым исходным кодом переживают быстрый рост, в последние несколько лет мы наблюдаем несколько тенденций в открытых наборах данных:
Где найти наборы данных Ниже приведены несколько ухоженных репозиториев, которые удовлетворяют различные потребности. Ко всем им можно получить доступ программным способом через Hugging Face Hub или загрузить напрямую. Многие из этих репозиториев можно просмотреть через хаб Hugging Face. Библиотека поддерживает загрузку наборов данных по их короткому имени (например, ) и обеспечивает потоковую загрузку и кэширование. ![]() Каггл Платформа, на которой размещены тысячи наборов данных в различных областях, включая финансы, здоровье, спорт, NLP, компьютерное зрение и многое другое. Kaggle широко используется для соревнований, учебных пособий и исследований. Он предоставляет метаданные, обсуждения и ядра (блокноты кода) для исследования. Репозиторий машинного обучения UCI Один из старейших и наиболее цитируемых репозиториев для наборов данных машинного обучения. Он предлагает хорошо подобранные, чистые наборы данных, в первую очередь предназначенные для тестирования алгоритмов тестирования. Особенно популярен для задач табличного/классического машинного обучения, таких как классификация, регрессия и кластеризация. Поиск в наборе данных Google Поисковая система для наборов данных в Интернете. Он агрегирует наборы данных от издателей, репозиториев и исследовательских организаций, что делает их доступными для поиска в одном месте. Полезно для поиска как нишевых, так и больших наборов данных. Открытый реестр данных AWS Коллекция ценных облачных наборов данных, доступных для бесплатного доступа и анализа. Наборы данных охватывают геномику, климат, спутниковые снимки и многое другое. Преимущество: размещены на инфраструктуре AWS, поэтому их можно анализировать напрямую с помощью облачных инструментов. Обзор последних открытых наборов данных Yambda-5B (набор данных Yandex Music Multi-Interactions) Яндекс выпустил Yambda-5B в 2025 году как самый большой открытый датасет для исследования рекомендательной системы. Он содержит 4,79 миллиарда анонимизированных взаимодействий пользователей с элементами, полученных от 1 миллиона пользователей и 9,39 миллиона треков. Взаимодействие включает в себя неявную обратную связь (слушает) и явную обратную связь (отметки «Нравится», «Дизлайки», удаления). Каждая запись содержит идентификатор пользователя, идентификатор элемента, метку времени и флаг, указывающий, было ли взаимодействие органическим или инициировано рекомендацией. Данные хранятся в файлах Parquet и предлагаются в трех масштабах (события 50 M, 500 M и 5 B). Некоторые исследователи и практики высоко оценили Ямбду. Аман Чадха (в настоящее время руководитель AWS GenAI, ранее Stanford AI, Apple) отмечает, что «наборы данных, такие как Yambda-5B, делают путь более плавным, преодолевая разрыв между академическими исследованиями и отраслевой актуальностью». Айсинь Сан (NTU Singapore) ожидает, что она получит широкое распространение в исследованиях рекомендательной системы, но предупреждает, что она адаптирована к конкретным рекомендательным условиям. ![]() Специалисты по обработке и анализу данных из таких компаний, как Meta, Nextory и Flipkart, подчеркивают, что предыдущие эталонные наборы данных были либо слишком маленькими, либо нереалистичными, в то время как Yambda-5B наконец-то предоставляет ресурс веб-масштаба. Эти комментарии подчеркивают как волнение, так и нюансы в сообществе. Говоря о сценариях использования, Yambda-5B позволяет проводить крупномасштабные рекомендательные исследования в промышленном масштабе. Его можно использовать для обучения моделей с поддержкой последовательностей (RNN, трансформаторы) и для изучения проблем холодного запуска с помощью встраивания звука. LAION-5B (Крупномасштабный мультимодальный набор данных) Релиз LAION-5B 2022 года предлагает 5,85 миллиарда пар изображение-текст с фильтрацией CLIP, что в 14 раз больше, чем у LAION-400M. Около 2,3 миллиарда пар являются английскими, 2,2 миллиарда — из 100+ других языков, а 1 миллиард состоит из имен или неприсваиваемых строк. Набор данных включает в себя встраивания CLIP ViT-L/14, индексы k-ближайшего соседа, демонстрацию поиска и оценки обнаружения NSFW/водяных знаков. Он предназначен для исследований на больших мультимодальных моделях, таких как CLIP, DALL-E и ALIGN. Сообщество искусственного интеллекта приветствовало LAION-5B как важный шаг на пути к демократизации исследований в области языка машинного зрения. Его открытый характер позволил независимым группам воспроизвести такие модели, как DALL-E, и изучить многоязычное выравнивание. В то же время исследователи подчеркивают необходимость тщательной фильтрации из-за некурируемого происхождения набора данных. ![]() LAION-5B позволяет обучать и оценивать модели языка машинного зрения в беспрецедентных масштабах. Это позволяет работать над классификацией изображений без снимков, генерацией текста в изображение и кросс-модальным извлечением. Набор данных не курируется, то есть содержит дубликаты и потенциально тревожный контент; авторы рекомендуют использовать фильтры NSFW и предупреждают, что он не предназначен для производства OMol25 (Открытые молекулы 2025) Набор данных Meta FAIR Open Molecules 2025 (OMol25) решает проблему нехватки высококачественных молекулярных данных для обучения суррогатов квантовой химии с помощью машинного обучения. Набор данных предлагает 83 миллиона уникальных молекулярных систем с 83 элементами, охватывающих широкий спектр внутри- и межмолекулярных взаимодействий, явной сольватации, переменных зарядов/спиновых состояний и реакционноспособных структур. Системы включают в себя малые молекулы, биомолекулы, комплексы металлов и электролиты, с размерами до 350 атомов. OMol25 позволяет обучать потенциалы нейронных сетей и модели силовых полей для таких задач, как поиск лекарств, разработка материалов и прогнозирование реакций. Он значительно расширяет химическое разнообразие и размеры доступных систем по сравнению с более ранними наборами данных. ODAC25 (Открытый ЦАП 2025) Набор данных Open DAC 2025 (ODAC25), выпущенный Meta в августе 2025 года, нацелен на климатическую инженерию. Он содержит почти 70 миллионов одноточечных расчетов адсорбции CO?, H?O, N? и O? DFT в 15 000 металлоорганических каркасах (MOF). ODAC25 обеспечивает химическое и конфигурационное разнообразие за счет функционализированных MOF, высокоэнергетических размещений Grand Canonical Monte Carlo (GCMC) и синтетически сгенерированных каркасов. Он также повышает точность расчетов DFT и обработки гибких MOF по сравнению со своим предшественником ODAC23. ODAC25 обеспечивает комплексный эталон для разработки материалов сорбента для прямого улавливания воздуха. Исследователи могут использовать его для обучения моделей, прогнозирующих энергию адсорбции и коэффициенты закона Генри, ускоряя поиск материалов, улавливающих CO? из влажного воздуха. Как и OMol25, ODAC25 является специализированным и требует знаний в предметной области. Практические советы по работе с наборами данных Вот несколько рекомендаций и практических советов, на которые следует обратить внимание при использовании открытых наборов данных: Проверьте лицензирование и конфиденциальность. Перед использованием ознакомьтесь с условиями лицензирования набора данных и соображениями конфиденциальности. Например, Yambda анонимизирует взаимодействие с пользователем, в то время как LAION предоставляет оценки обнаружения NSFW и призывает к осторожности. Убедитесь, что лицензия набора данных позволяет использовать его по назначению. Используйте инструменты для изучения данных. Библиотека наборов данных Hugging Face упрощает загрузку и предварительную обработку данных. Библиотека кэширует данные на диске и использует Apache Arrow для быстрого доступа к столбцам. Она также интегрируется с PyTorch и TensorFlow для обучения. Вы можете выполнять потоковую передачу больших наборов данных и даже работать со сжатыми файлами: ![]()
Инструменты и библиотеки для наборов данных в приложении «Обнимающее лицо» Вот несколько инструментов, которые вы должны знать при работе с наборами данных.
Дополнительные библиотеки. При анализе больших объемов данных такие библиотеки, как Pandas, Polars или DuckDB, могут помочь в работе с столбцами. Для исследования рекомендательных систем такие фреймворки, как RecBole и LensKit, хорошо интегрируются с наборами данных, такими как Yambda. В химической области TorchMD-Net и SchNetPack предоставляют потенциалы нейронных сетей, которые могут потреблять OMol25 или ODAC25. Заключение Открытые наборы данных составляют основу современных исследований в области искусственного интеллекта. В этом обзоре выделены различные виды данных (структурированные, неструктурированные, временные ряды и геопространственные), а также обозначены основные Такие тенденции, как рост мультимодальных наборов данных в миллиардах масштабов и облачных репозиториев данных, а также появление нескольких надежных источников для обнаружения наборов данных. Недавние релизы, в том числе Yambda-5B от Яндекса для рекомендательных систем, набор данных изображений и текста LAION 5B, набор данных по химии OMol25 от Meta и набор данных сорбента ODAC25, демонстрируют, как открытые данные могут катализировать инновации в различных областях, от потоковой передачи музыки до квантовой химии. Изучая эти ресурсы, не забывайте проверять лицензирование и конфиденциальность, использовать соответствующие инструменты для загрузки и индексирования и начинать с управляемых подмножеств. Hugging Face и библиотеки обеспечивают эффективные конвейеры для работы с данными в большом масштабе. Внося свой вклад в проекты с открытыми данными и делясь собственными наборами данных, вы помогаете создать экосистему, которая ускоряет открытия и демократизирует исследования в области искусственного интеллекта. Источник: huggingface.co Комментарии: |
|