Исследование различных типов связей между датасетами для улучшения их поиска |
||
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2024-11-14 12:24 В исследовании, опубликованном к International Semantic Web Conference (https://iswc2024.semanticweb.org/), Google Research проанализировал связи между датасетами, доступными в Интернет. Целью исследования заявлена стремление улучшить возможности поиска (https://datasetsearch.research.google.com/) и использования данных, учитывая их сложные взаимоотношения. Исследователи выделили 4 ключевые задачи, с которыми сталкиваются пользователи при работе с датасетами: Поиск. Огромное количество данных в сети затрудняет поиск нужных датасетов. Оценка достоверности. В отличие от научных публикаций, датасеты редко проходят рецензирование, поэтому пользователям приходится полагаться на метаданные для оценки их надежности. Цитирование. Корректное цитирование требует наличия постоянных идентификаторов, метаданных и точного описания происхождения данных. Курирование: Курирование включает сбор, организацию и поддержку датасетов из разных источников, а для этого кураторам необходимо понимать связи между ними. Чтобы классифицировать отношения между датасетами были использованы 2 основных типа связей: основанные на происхождении (например, версии и подмножества) и не связанные с происхождением (например, тематически похожие). Для автоматического определения отношений между датасетами применяли 4 метода: Извлечение отношений из schema.org. Schema.org - это семантическая разметка метаданных для поисковых ботов на веб-страницах. Эвристический подход. Набор правил, разработанных для каждого типа отношений. Градиентный бустинг деревьев решений (GBDT). Метод машинного обучения, основанный на классификации. Модель T5. Генеративная модель, также используемая для классификации. Результаты исследования показали, что методы машинного обучения, GBDT и T5, превзошли эвристический подход в точности определения отношений. GBDT продемонстрировал наилучшие показатели F1 в различных категориях, T5 тоже Однако, даже самые эффективные методы столкнулись с ограничениями из-за недостаточной полноты метаданных. Вывод - необходимость улучшения стандартов метаданных и более широкого использования schema.org для описания связей между датасетами. Статья в блоге (https://research.google/blog/relationships-are-complicated-an-analysis-of-relationships-between-datasets-on-the-web/) Arxiv (https://arxiv.org/pdf/2408.14636) Поиск по датасетам (https://datasetsearch.research.google.com/) Источник: datasetsearch.research.google.com Комментарии: |
|