Наборы данных и оценочные метрики для обработки естественного языка и многое другоеСовместимость с NumPy, Pandas, PyTorch и TensorFlow

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Документация: https://huggingface.co/docs/datasets/

Демо-версия Colab: https://colab.research.google.com/github/huggingface/datasets/blob/master/notebooks/Overview.ipynb

Онлайн-обозреватель наборовданных : https://huggingface.co/nlp/viewer

?Datasets это легкая и расширяемая библиотека для легкого обмена и доступа к наборам данных и метрикам оценки для обработки естественного языка (НЛП) и многого другого.

?Datasets имеет много интересных функций (помимо простого обмена и доступа к наборам данных / метрикам):

  • Встроенная совместимость с NumPy, pandas, PyTorch и Tensorflow 2
  • Легкий и быстрый с прозрачным и pythonic API
  • Стремитесь к большим наборам данных: ?Datasetsестественно, освобождает пользователя от ограничения оперативной памяти, все наборы данных отображаются в памяти на диске по умолчанию.
  • Интеллектуальное кэширование: никогда не ждите, пока ваши данные будут обработаны несколько раз

?Datasets в настоящее время предоставляет доступ к ~100 наборам данных НЛП и ~10 оценочным метрикам и предназначен для того, чтобы сообщество легко добавляло и делилось новыми наборами данных и оценочными метриками. Вы можете просмотреть полный набор наборов данных с помощью средства просмотра живых наборовданных.

?Datasets возникнув из развилки awesome TensorFlow Datasetsи команды HuggingFace, мы хотим глубоко поблагодарить команду TensorFlow Datasets за создание этой удивительной библиотеки. Более подробно о различиях между datasetsи tfdsможно прочитать в разделе Основные различия между ?Datasetsи tfds.

Жертвователь

Установка

?Datasets может быть установлен из PyPi и должен быть установлен в виртуальной среде (например, venv или conda)

pip устанавливает наборы данных

Для получения более подробной информации об установке проверьте страницу установки в документации: https://huggingface.co/docs/datasets/installation.html

Использование с PyTorch / TensorFlow/pandas

Если вы планируете использовать ?Datasetsс PyTorch (1.0+), TensorFlow (2.2+) или pandas, вам также следует установить PyTorch, TensorFlow или pandas.

Для получения более подробной информации об использовании библиотеки с NumPy, pandas, PyTorch или TensorFlow, проверьте страницу быстрого тура в документации: https://huggingface.co/docs/datasets/quicktour.html

Использование

?Datasets сделано, чтобы быть очень простым в использовании. Основными методами являются:

  • datasets.list_datasets() чтобы перечислить доступные наборы данных
  • datasets.load_dataset(dataset_name, **kwargs) чтобы создать экземпляр набора данных
  • datasets.list_metrics() чтобы перечислить доступные метрики
  • datasets.load_metric(metric_name, **kwargs) чтобы создать экземпляр метрики

Вот краткий пример:

из наборов данных импортируйте list_datasets, load_dataset, list_metrics, load_metric  # Print все доступные наборы данных print(list_datasets())  # Загрузите набор данных и распечатайте первые примеры в учебном наборе squad_dataset = load_dataset('squad') print(squad_dataset['train'][0])  # Список всех доступных метрик печать(list_metrics())  # Load a metric squad_metric = load_metric('отряд')

Для получения более подробной информации об использовании библиотеки проверьте страницу быстрого тура в документации: https://huggingface.co/docs/datasets/quicktour.html и конкретные страницы на

Еще одно введение ?Datasets- это учебник по Google Colab здесь: Открыто В Колабе

Основные различия между datasetsи tfds

Если вы знакомы с великим Tensorflow Datasets, то вот основные различия между datasetsним иtfds:

  • скрипты внутри ?Datasetsбиблиотеки не предоставляются, но запрашиваются, загружаются / кэшируются и динамически загружаются по запросу
  • ?Datasets также предоставляет оценочные метрики аналогично наборам данных, то есть в виде динамически устанавливаемых скриптов с унифицированным API. Это дает доступ к паре эталонного набора данных и эталонной метрики, например, для таких эталонов, как SQuAD или GLUE.
  • бэкенд-сериализация ?Datasetsоснована на Apache Arrow вместо записей TF и использует классы данных python для получения информации и функций с некоторыми расходящимися функциями (мы в основном не занимаемся кодированием и храним необработанные данные как можно больше в кэше бэкенд-сериализации).
  • обращенный к пользователю объект dataset ?Datasets- это не tf.data.Datasetпросто встроенный фреймворк-агностический класс dataset с методами, вдохновленными тем, что нам нравится tf.data(напримерmap(), метод). Он в основном обертывает кэш таблицы стрелок, отображенный в памяти.

Отказ от ответственности

Аналогично наборам данных TensorFlow, ?Datasetsэто служебная библиотека, которая загружает и подготавливает общедоступные наборы данных. Мы не размещаем и не распространяем эти наборы данных, не ручаемся за их качество или справедливость и не утверждаем, что у вас есть лицензия на их использование. Вы несете ответственность за определение того, есть ли у вас разрешение на использование набора данных в соответствии с лицензией набора данных.

Если вы являетесь владельцем набора данных и хотите обновить любую его часть (описание, цитату и т. д.


Источник: github.com

Комментарии: