Google open-sources AI, который ищет таблицы, чтобы ответить на вопросы естественного языка

2020-05-12 15:05

алгоритмы машинного обучения, компьютерная лингвистика

Google сегодня с открытым исходным кодом модель машинного обучения, которая может указывать на ответы на вопросы естественного языка (например, “какой борец имел наибольшее количество царствований?") в электронных таблицах и базах данных. Создатели модели утверждают, что она даже способна находить ответы, распределенные по ячейкам, или это может потребовать объединения нескольких ячеек.

Большая часть мировой информации хранится в виде таблиц, отмечает Томас Мюллер из Google Research в своем блоге, например, глобальная финансовая статистика и спортивные результаты. Но этим таблицам часто не хватает интуитивного способа просеять их — проблема, которую модель ИИ Google стремится исправить.

Чтобы ответить на такие вопросы, как “среднее время в качестве чемпиона для лучших борцов 2?"модель совместно кодирует вопрос, а также содержимое таблицы строка за строкой. Он использует трансформаторную архитектуру BERT, которая является как двунаправленной (позволяя ей получать доступ к контенту из прошлых и будущих направлений), так и бесконтрольной (то есть она может принимать данные, которые не классифицированы и не помечены), расширенной вместе с числовыми представлениями, называемыми вложениями, для кодирования структуры таблицы.

Ключевым дополнением были вложения, используемые для кодирования структурированного ввода, согласно Мюллеру. Изученные вложения для индекса столбца, индекса строки и одного специального индекса ранга указывают модели порядок элементов в числовых столбцах.

VB Transform 2020 Online-15-17 июля: Присоединяйтесь к ведущим руководителям AI на мероприятии AI года. Зарегистрируйтесь сегодня и сэкономьте 30% от цифровых пропусков доступа.

Выше: таблица и вопросы с ожидаемыми ответами. Ответы могут быть выбраны (#1, #4) или вычислены (#2, #3).

Image Copyright: Google

Для каждой ячейки таблицы модель генерирует оценку, указывающую на вероятность того, что ячейка будет частью ответа. Кроме того, он выводит операцию (например, “среднее”, “сумма” или “количество”), указывая, какая операция (если таковая имеется) должна быть применена для получения окончательного ответа.

Для предварительной подготовки модели исследователи извлекли 6,2 миллиона пар таблиц-текстов из английской Википедии, которые служили в качестве набора обучающих данных. Во время предварительного обучения модель научилась — с относительно высокой точностью — восстанавливать слова как в таблицах, так и в тексте, которые были удалены. На самом деле, 71,4% элементов были восстановлены правильно для таблиц, невидимых во время обучения.

После предварительного обучения Мюллер и его команда отладили модель с помощью слабого контроля, используя ограниченные источники для предоставления сигналов для маркировки данных обучения. Они сообщают, что лучшая модель превзошла самую современную для набора данных последовательных ответов, созданного корпорацией Майкрософт эталонного показателя для изучения задачи ответа на вопросы в таблицах, на 12 пунктов. Он также превзошел предыдущую топ-модель на Wikitable Questions Стэнфорда, которая содержит вопросы и таблицы, полученные из Википедии.

"Слабый сценарий надзора выгоден, потому что он позволяет неспециалистам предоставлять данные, необходимые для подготовки модели, и занимает меньше времени, чем сильный надзор”,-сказал Мюллер.

Телеграм: t.me/ainewsline

Источник: venturebeat.com



		Google open-sources AI, который ищет таблицы, чтобы ответить на вопросы естественного языка
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ Атаки на ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2020-05-12 15:05 алгоритмы машинного обучения, компьютерная лингвистика Google сегодня с открытым исходным кодом модель машинного обучения, которая может указывать на ответы на вопросы естественного языка (например, “какой борец имел наибольшее количество царствований?") в электронных таблицах и базах данных. Создатели модели утверждают, что она даже способна находить ответы, распределенные по ячейкам, или это может потребовать объединения нескольких ячеек. Большая часть мировой информации хранится в виде таблиц, отмечает Томас Мюллер из Google Research в своем блоге, например, глобальная финансовая статистика и спортивные результаты. Но этим таблицам часто не хватает интуитивного способа просеять их — проблема, которую модель ИИ Google стремится исправить. Чтобы ответить на такие вопросы, как “среднее время в качестве чемпиона для лучших борцов 2?"модель совместно кодирует вопрос, а также содержимое таблицы строка за строкой. Он использует трансформаторную архитектуру BERT, которая является как двунаправленной (позволяя ей получать доступ к контенту из прошлых и будущих направлений), так и бесконтрольной (то есть она может принимать данные, которые не классифицированы и не помечены), расширенной вместе с числовыми представлениями, называемыми вложениями, для кодирования структуры таблицы. Ключевым дополнением были вложения, используемые для кодирования структурированного ввода, согласно Мюллеру. Изученные вложения для индекса столбца, индекса строки и одного специального индекса ранга указывают модели порядок элементов в числовых столбцах. VB Transform 2020 Online-15-17 июля: Присоединяйтесь к ведущим руководителям AI на мероприятии AI года. Зарегистрируйтесь сегодня и сэкономьте 30% от цифровых пропусков доступа. Выше: таблица и вопросы с ожидаемыми ответами. Ответы могут быть выбраны (#1, #4) или вычислены (#2, #3). Image Copyright: Google Для каждой ячейки таблицы модель генерирует оценку, указывающую на вероятность того, что ячейка будет частью ответа. Кроме того, он выводит операцию (например, “среднее”, “сумма” или “количество”), указывая, какая операция (если таковая имеется) должна быть применена для получения окончательного ответа. Для предварительной подготовки модели исследователи извлекли 6,2 миллиона пар таблиц-текстов из английской Википедии, которые служили в качестве набора обучающих данных. Во время предварительного обучения модель научилась — с относительно высокой точностью — восстанавливать слова как в таблицах, так и в тексте, которые были удалены. На самом деле, 71,4% элементов были восстановлены правильно для таблиц, невидимых во время обучения. После предварительного обучения Мюллер и его команда отладили модель с помощью слабого контроля, используя ограниченные источники для предоставления сигналов для маркировки данных обучения. Они сообщают, что лучшая модель превзошла самую современную для набора данных последовательных ответов, созданного корпорацией Майкрософт эталонного показателя для изучения задачи ответа на вопросы в таблицах, на 12 пунктов. Он также превзошел предыдущую топ-модель на Wikitable Questions Стэнфорда, которая содержит вопросы и таблицы, полученные из Википедии. "Слабый сценарий надзора выгоден, потому что он позволяет неспециалистам предоставлять данные, необходимые для подготовки модели, и занимает меньше времени, чем сильный надзор”,-сказал Мюллер. Телеграм: t.me/ainewsline Источник: venturebeat.com Комментарии:

Google open-sources AI, который ищет таблицы, чтобы ответить на вопросы естественного языка

Комментарии: