В TensorFlow появилась функция преобразования датасетов в формат tf.data

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Разработчики Google представили функцию TensorFlow Datasets для преобразования любых общедоступных наборов данных в формат tf.data. Открытые наборы данных для обучения моделей распространяются и хранятся в разных форматах. Написание скриптов для загрузки и обработки каждого набора данных требует времени.

Tensorflow Datasets преобразует наборы данных из интернета в подготовленный формат, выполняя всю работу по извлечению исходных и предварительной обработке данных. Он представляет датасеты в формате tf.data.Datasets и массивов NumPy и использует tf.data API для создания высокопроизводительных пайплайнов, которые подготовлены к работе с TensorFlow 2.0 и могут работать с tf.keras моделями.

Попробуйте сами (датасет MNIST):

tfds.load и DatasetBuilder

Для каждого набора данных TFDS реализует подкласс DatasetBuilder, который определяет откуда поступают данные (их URL), что представляет собой набор данных (его особенности), как данные должны быть разделены (например, на выборки TRAIN и TEST).

Сейчас в TFDS доступны 29 датасетов, включая популярные MNIST, Street View House Numbers, 1 Billion Word Language Model, Large Movie Reviews Dataset. В дальнейшем будут добавлены новые.

Можно самостоятельно добавить датасет здесь. Пока что TensorFlow ограничивает возможность добавления датасетов, обработка которых занимает больше одного дня. В ближайшее время это будет реализовано с помощью Apache Beam.


Источник: neurohive.io

Комментарии: