Сибирские ученые создали систему перевода дореволюционных текстов на современный язык

2020-03-27 18:10

Ученые из Новосибирска создали систему, которая позволяет переводить дореволюционные издания в современную русскую орфографию почти без человеческого участия. Изобретение сможет делать работу редакторов, а у исследователей появился дополнительный инструмент для анализа текстов.

Сотрудники Института вычислительных технологий СО РАН создали систему, которая переводит дореволюционные издания в современную русскую орфографию. Программа сможет выполнять рутинную работу редакторов, а исследователи получат новый инструмент для анализа текстов, сообщает «Наука в Сибири».

Существует несколько вариантов перевода текстов из одной орфографии в другую: перевод по правилам, статистический, основанный на машинном обучении, нейронный машинный перевод и гибридный, который сочетает все эти методы. Сотрудники ИВТ СО РАН выбрали подход, основанный на правилах правописания.

Исследователи взяли за основу «Справочник по старой орфографии русского языка» Павла Давыдова, в котором указаны изменения о правописании морфем и употреблении отдельных букв. Старое правописание морфем делится на несколько групп слов, у каждой из которых устаревшая морфема и морфологические признаки. Ученые сравнили устаревшее и современное написание для каждой группы, нашли закономерности между ними и описали правила перевода, которые вошли в программу.

Изначальная идея состояла в том, что алгоритм должен определить, принадлежит ли входное слово к одной из групп, то есть найдена ли нужная морфема в слове, и обладает ли оно соответствующими морфологическими признаками. Если да, то к слову применяется правило перевода для той группы, к которому оно относится. В противном случае оно остается без изменений. Получившееся слово поступает морфологическому анализатору.

Первый этап перевода — исправление морфем. После этого программа переходит к замене устаревших букв. Алгоритмом морфологического анализа стала библиотека Pymorphy, созданная на языке программирования Python. Она анализирует слова и склоняет их по заданным грамматическим параметрам. Программа опирается на данные словаря OpenCorpora, а для незнакомых слов строит гипотезы.

«Конечно, неизбежно останутся такие случаи, в которых эксперт должен будет решать, правильно сделан перевод или нет», — отметила инженер-программист ИВТ СО РАН Елизавета Тагирова.

По словам ученых, чем старее текст, тем больше можно найти примеров, которые требуют вмешательства эксперта, потому как не все правила кодифицированы.

Исследователи уточняют, что алгоритм должен заменить не эксперта, а корректора для работы с большими объемами текстов. Программа пока не может правильно анализировать случаи, которых нет в справочниках. Есть несколько способов доработать ее. Во-первых, выявить закономерности написания и дополнить существующий алгоритм новыми правилами. Другой способ — использовать методы машинного обучения для сложных случаев, которые могут быть учтены при обучении на корпусе параллельных текстов, в котором каждому документу в современной орфографии сопоставлен аналогичный, но в дореволюционном виде.

«Если наш проект будет востребован массовыми пользователями в лице, например, библиотек с большим объемом дореволюционных фондов, то создание такого корпуса — задача ближайшего будущего», — подчеркнула Тагирова.

Источник: tayga.info



		Сибирские ученые создали систему перевода дореволюционных текстов на современный язык
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ Разработка ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовые компьютеры Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2020-03-27 18:10 алгоритмы машинного перевода Ученые из Новосибирска создали систему, которая позволяет переводить дореволюционные издания в современную русскую орфографию почти без человеческого участия. Изобретение сможет делать работу редакторов, а у исследователей появился дополнительный инструмент для анализа текстов. Сотрудники Института вычислительных технологий СО РАН создали систему, которая переводит дореволюционные издания в современную русскую орфографию. Программа сможет выполнять рутинную работу редакторов, а исследователи получат новый инструмент для анализа текстов, сообщает «Наука в Сибири». Существует несколько вариантов перевода текстов из одной орфографии в другую: перевод по правилам, статистический, основанный на машинном обучении, нейронный машинный перевод и гибридный, который сочетает все эти методы. Сотрудники ИВТ СО РАН выбрали подход, основанный на правилах правописания. Исследователи взяли за основу «Справочник по старой орфографии русского языка» Павла Давыдова, в котором указаны изменения о правописании морфем и употреблении отдельных букв. Старое правописание морфем делится на несколько групп слов, у каждой из которых устаревшая морфема и морфологические признаки. Ученые сравнили устаревшее и современное написание для каждой группы, нашли закономерности между ними и описали правила перевода, которые вошли в программу. Изначальная идея состояла в том, что алгоритм должен определить, принадлежит ли входное слово к одной из групп, то есть найдена ли нужная морфема в слове, и обладает ли оно соответствующими морфологическими признаками. Если да, то к слову применяется правило перевода для той группы, к которому оно относится. В противном случае оно остается без изменений. Получившееся слово поступает морфологическому анализатору. Первый этап перевода — исправление морфем. После этого программа переходит к замене устаревших букв. Алгоритмом морфологического анализа стала библиотека Pymorphy, созданная на языке программирования Python. Она анализирует слова и склоняет их по заданным грамматическим параметрам. Программа опирается на данные словаря OpenCorpora, а для незнакомых слов строит гипотезы. «Конечно, неизбежно останутся такие случаи, в которых эксперт должен будет решать, правильно сделан перевод или нет», — отметила инженер-программист ИВТ СО РАН Елизавета Тагирова. По словам ученых, чем старее текст, тем больше можно найти примеров, которые требуют вмешательства эксперта, потому как не все правила кодифицированы. Исследователи уточняют, что алгоритм должен заменить не эксперта, а корректора для работы с большими объемами текстов. Программа пока не может правильно анализировать случаи, которых нет в справочниках. Есть несколько способов доработать ее. Во-первых, выявить закономерности написания и дополнить существующий алгоритм новыми правилами. Другой способ — использовать методы машинного обучения для сложных случаев, которые могут быть учтены при обучении на корпусе параллельных текстов, в котором каждому документу в современной орфографии сопоставлен аналогичный, но в дореволюционном виде. «Если наш проект будет востребован массовыми пользователями в лице, например, библиотек с большим объемом дореволюционных фондов, то создание такого корпуса — задача ближайшего будущего», — подчеркнула Тагирова. Источник: tayga.info Комментарии:

Сибирские ученые создали систему перевода дореволюционных текстов на современный язык

Комментарии: