Новый алгоритм OpenAI научился создавать осмысленные тексты

2019-02-15 18:05

Исследователи из OpenAI создали алгоритм, который умеет создавать правдоподобные тексты и отвечать на вопросы без спецификации необходимой задачи в процессе обучения. Единственное умение GPT-2, обученного на восьми миллионах текстовых веб-страниц, — предсказывать последующее слово. Описание работы алгоритма доступно на официальном сайте проекта.

В последние годы машинное обучение все чаще и эффективнее применяют в решении задач автоматической обработки языка. В зависимости от задачи архитектура обучаемой модели и используемый для обучения датасеты должны быть разными, что может сильно ограничить их возможности и усложнить процесс разработки.

Команда из OpenAI под руководством Алека Рэдфорда (Alec Radford) решила создать алгоритм, который бы умел решать множество различных задач по обработке текста без спецификации этих задач при обучении. Для этого исследователи собрали датасет WebText, который содержит 40 гигабайт текста, взятого с восьми миллионов страниц в интернете. В отличие от большинства подобных датасетов, для которых берутся тексты с сайта Википедии или же исключительно новостные заметки, в WebText попали самые разные материалы.

Авторы утверждают, что единственная способность их алгоритма, — генерировать новые слова на основании прочитанного. Сравнительно простое решение задачи автоматической обработки языка позволило ученым создать алгоритм, который может не только дописывать отрывки, представленные людьми, но также и писать эссе на заданные темы и новости на основании заголовков.

У созданного алгоритма есть и свои ограничения. Например, наиболее удачный пример его работы — эссе на тему того, почему переработка мусора — это плохо, получилось убедительным только с 25 попытки, и при этом все равно содержало мелкие ошибки вроде необязательного повтора слов. Также среди недостатков алгоритма разработчики отметили семантические трудности и быстрые и порой неуместные смены тем. При этом тексты, которые широко представлены в обучающей выборке (например, новостные заметки) даются алгоритму лучше: правдоподобные образцы он выдает уже со второй попытки.

Также разработчики опробовали алгоритм на других задачах: ответе на случайные вопросы, переводе текста и вопросах на понимание прочитанного. Несмотря на это, что эффективность алгоритма для этих задач значительно ниже алгоритмов, настроенных на определенные задачи, GPT-2, к примеру, удалось добиться максимальной средней точности при ответе на вопрос в 63,5 процента. При этом ни один из вопросов и ответ на него не были использованы в обучающей выборке. При этом ему также удалось перевести несколько отдельных слов и ответить на большинство вопросов по прочитанным текстам. Разработчики считают, что эффективность GPT-2 в выполнении этих задач можно повысить с расширением датасета и увеличением вычислительной мощности компьютеров, который используется для обучения.

Разработчики не выложили программный код обученной модели целиком, опасаясь «недобросовестных использований»: вместо этого они предоставили упрощенную модель для других исследователей, а также описали проделанную работу в препринте.

Помимо нового алгоритма, который производит правдоподобные текстовые отрывки, у OpenAI также есть бот, который умеет играть в Dota 2: в 2017 году он выступил против сильнейших игроков и победил.

Елизавета Ивтушок

Телеграм: t.me/ainewsline

Источник: nplus1.ru



		Новый алгоритм OpenAI научился создавать осмысленные тексты
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ Атаки на ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2019-02-15 18:05 ИИ проекты, компьютерная лингвистика Исследователи из OpenAI создали алгоритм, который умеет создавать правдоподобные тексты и отвечать на вопросы без спецификации необходимой задачи в процессе обучения. Единственное умение GPT-2, обученного на восьми миллионах текстовых веб-страниц, — предсказывать последующее слово. Описание работы алгоритма доступно на официальном сайте проекта. В последние годы машинное обучение все чаще и эффективнее применяют в решении задач автоматической обработки языка. В зависимости от задачи архитектура обучаемой модели и используемый для обучения датасеты должны быть разными, что может сильно ограничить их возможности и усложнить процесс разработки. Команда из OpenAI под руководством Алека Рэдфорда (Alec Radford) решила создать алгоритм, который бы умел решать множество различных задач по обработке текста без спецификации этих задач при обучении. Для этого исследователи собрали датасет WebText, который содержит 40 гигабайт текста, взятого с восьми миллионов страниц в интернете. В отличие от большинства подобных датасетов, для которых берутся тексты с сайта Википедии или же исключительно новостные заметки, в WebText попали самые разные материалы. Авторы утверждают, что единственная способность их алгоритма, — генерировать новые слова на основании прочитанного. Сравнительно простое решение задачи автоматической обработки языка позволило ученым создать алгоритм, который может не только дописывать отрывки, представленные людьми, но также и писать эссе на заданные темы и новости на основании заголовков. У созданного алгоритма есть и свои ограничения. Например, наиболее удачный пример его работы — эссе на тему того, почему переработка мусора — это плохо, получилось убедительным только с 25 попытки, и при этом все равно содержало мелкие ошибки вроде необязательного повтора слов. Также среди недостатков алгоритма разработчики отметили семантические трудности и быстрые и порой неуместные смены тем. При этом тексты, которые широко представлены в обучающей выборке (например, новостные заметки) даются алгоритму лучше: правдоподобные образцы он выдает уже со второй попытки. Также разработчики опробовали алгоритм на других задачах: ответе на случайные вопросы, переводе текста и вопросах на понимание прочитанного. Несмотря на это, что эффективность алгоритма для этих задач значительно ниже алгоритмов, настроенных на определенные задачи, GPT-2, к примеру, удалось добиться максимальной средней точности при ответе на вопрос в 63,5 процента. При этом ни один из вопросов и ответ на него не были использованы в обучающей выборке. При этом ему также удалось перевести несколько отдельных слов и ответить на большинство вопросов по прочитанным текстам. Разработчики считают, что эффективность GPT-2 в выполнении этих задач можно повысить с расширением датасета и увеличением вычислительной мощности компьютеров, который используется для обучения. Разработчики не выложили программный код обученной модели целиком, опасаясь «недобросовестных использований»: вместо этого они предоставили упрощенную модель для других исследователей, а также описали проделанную работу в препринте. Помимо нового алгоритма, который производит правдоподобные текстовые отрывки, у OpenAI также есть бот, который умеет играть в Dota 2: в 2017 году он выступил против сильнейших игроков и победил. Елизавета Ивтушок Телеграм: t.me/ainewsline Источник: nplus1.ru Комментарии:

Новый алгоритм OpenAI научился создавать осмысленные тексты

Комментарии: