Google open-sources AI, который ищет таблицы, чтобы ответить на вопросы естественного языка

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Google сегодня с открытым исходным кодом модель машинного обучения, которая может указывать на ответы на вопросы естественного языка (например, “какой борец имел наибольшее количество царствований?") в электронных таблицах и базах данных. Создатели модели утверждают, что она даже способна находить ответы, распределенные по ячейкам, или это может потребовать объединения нескольких ячеек.

Большая часть мировой информации хранится в виде таблиц, отмечает Томас Мюллер из Google Research в своем блоге, например, глобальная финансовая статистика и спортивные результаты. Но этим таблицам часто не хватает интуитивного способа просеять их — проблема, которую модель ИИ Google стремится исправить.

Чтобы ответить на такие вопросы, как “среднее время в качестве чемпиона для лучших борцов 2?"модель совместно кодирует вопрос, а также содержимое таблицы строка за строкой. Он использует трансформаторную архитектуру BERT, которая является как двунаправленной (позволяя ей получать доступ к контенту из прошлых и будущих направлений), так и бесконтрольной (то есть она может принимать данные, которые не классифицированы и не помечены), расширенной вместе с числовыми представлениями, называемыми вложениями, для кодирования структуры таблицы.

Ключевым дополнением были вложения, используемые для кодирования структурированного ввода, согласно Мюллеру. Изученные вложения для индекса столбца, индекса строки и одного специального индекса ранга указывают модели порядок элементов в числовых столбцах.

VB Transform 2020 Online-15-17 июля: Присоединяйтесь к ведущим руководителям AI на мероприятии AI года. Зарегистрируйтесь сегодня и сэкономьте 30% от цифровых пропусков доступа.

Поиск таблиц Google AI

Выше: таблица и вопросы с ожидаемыми ответами. Ответы могут быть выбраны (#1, #4) или вычислены (#2, #3).

Image Copyright: Google

Для каждой ячейки таблицы модель генерирует оценку, указывающую на вероятность того, что ячейка будет частью ответа. Кроме того, он выводит операцию (например, “среднее”, “сумма” или “количество”), указывая, какая операция (если таковая имеется) должна быть применена для получения окончательного ответа.

Для предварительной подготовки модели исследователи извлекли 6,2 миллиона пар таблиц-текстов из английской Википедии, которые служили в качестве набора обучающих данных. Во время предварительного обучения модель научилась — с относительно высокой точностью — восстанавливать слова как в таблицах, так и в тексте, которые были удалены. На самом деле, 71,4% элементов были восстановлены правильно для таблиц, невидимых во время обучения.

После предварительного обучения Мюллер и его команда отладили модель с помощью слабого контроля, используя ограниченные источники для предоставления сигналов для маркировки данных обучения. Они сообщают, что лучшая модель превзошла самую современную для набора данных последовательных ответов, созданного корпорацией Майкрософт эталонного показателя для изучения задачи ответа на вопросы в таблицах, на 12 пунктов. Он также превзошел предыдущую топ-модель на Wikitable Questions Стэнфорда, которая содержит вопросы и таблицы, полученные из Википедии.

"Слабый сценарий надзора выгоден, потому что он позволяет неспециалистам предоставлять данные, необходимые для подготовки модели, и занимает меньше времени, чем сильный надзор”,-сказал Мюллер.


Источник: venturebeat.com

Комментарии: