Исследование различных типов связей между датасетами для улучшения их поиска

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


В исследовании, опубликованном к International Semantic Web Conference (https://iswc2024.semanticweb.org/), Google Research проанализировал связи между датасетами, доступными в Интернет. Целью исследования заявлена стремление улучшить возможности поиска (https://datasetsearch.research.google.com/) и использования данных, учитывая их сложные взаимоотношения.

Исследователи выделили 4 ключевые задачи, с которыми сталкиваются пользователи при работе с датасетами:

Поиск. Огромное количество данных в сети затрудняет поиск нужных датасетов.

Оценка достоверности. В отличие от научных публикаций, датасеты редко проходят рецензирование, поэтому пользователям приходится полагаться на метаданные для оценки их надежности.

Цитирование. Корректное цитирование требует наличия постоянных идентификаторов, метаданных и точного описания происхождения данных.

Курирование: Курирование включает сбор, организацию и поддержку датасетов из разных источников, а для этого кураторам необходимо понимать связи между ними.

Чтобы классифицировать отношения между датасетами были использованы 2 основных типа связей: основанные на происхождении (например, версии и подмножества) и не связанные с происхождением (например, тематически похожие).

Для автоматического определения отношений между датасетами применяли 4 метода:

Извлечение отношений из schema.org.

Schema.org - это семантическая разметка метаданных для поисковых ботов на веб-страницах.

Эвристический подход.

Набор правил, разработанных для каждого типа отношений.

Градиентный бустинг деревьев решений (GBDT).

Метод машинного обучения, основанный на классификации.

Модель T5.

Генеративная модель, также используемая для классификации.

Результаты исследования показали, что методы машинного обучения, GBDT и T5, превзошли эвристический подход в точности определения отношений. GBDT продемонстрировал наилучшие показатели F1 в различных категориях, T5 тоже молодец показал схожие результаты.

Однако, даже самые эффективные методы столкнулись с ограничениями из-за недостаточной полноты метаданных. Вывод - необходимость улучшения стандартов метаданных и более широкого использования schema.org для описания связей между датасетами.

Статья в блоге (https://research.google/blog/relationships-are-complicated-an-analysis-of-relationships-between-datasets-on-the-web/)

Arxiv (https://arxiv.org/pdf/2408.14636)

Поиск по датасетам (https://datasetsearch.research.google.com/)


Источник: datasetsearch.research.google.com

Комментарии: