Алгоритмы для пушкиниста |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2019-04-29 11:00 В Институте вычислительных технологий СО РАН создают систему, берущую на себя многие операции по классификации и сравнительному анализу текстов, в том числе художественных. Ученые-литературоведы не только читают, но и считают: количество слогов, слов и строк, повторов тех или иных выражений, оборотов, лексических конструкций, образов и тому подобного. Точно такие же действия необходимы для анализа любых иных текстов, будь то государственные документы или контент социальных сетей. Рисовать столбики на полях книг или вручную заполнять таблицы — занятие трудоемкое и утомительное, поэтому идея задействовать компьютерные технологии родилась едва ли не одновременно с самими компьютерами. В Институте вычислительных технологий СО РАН решили научить машину распознавать отдельные элементы — слова и предложения, их части и сочетания, ударения, стихотворные размеры и так далее — чтобы находить закономерности, не всегда заметные человеку. Это может быть полезно для изучающих поэзию литературоведов, для подготовки студентов-филологов, а в перспективе — для более широкого применения. У кого больше рифм к слову «любовь» — у Пушкина, Лермонтова или Блока? Яндекс не ответит, исследователь потратит несколько недель, специализированная компьютерная система — считанные секунды. Во второй половине 1990-х годов создатель внутренней информационной сети СО РАН академик Юрий Иванович Шокин пригласил в новосибирский Академгородок из Красноярска профессора (сегодня члена-корреспондента РАН) Анатолия Михайловича Федотова, в круг научных интересов которого входили алгоритмы информационного поиска. Этот ученый заинтересовался задачей разработки методов анализа информации на естественных (то есть человеческих, а не машинных) языках. Сегодня подходы и заделы А. М. Федотова в ИВТ СО РАН реализует команда специалистов (в том числе студентов и аспирантов) под руководством доктора технических наук Владимира Борисовича Барахнина и кандидата филологических наук Ольги Юрьевны Кожемякиной — ученого-пушкиниста, защитившей диссертацию под руководством известного литературоведа доктора филологических наук, профессора Виктора Георгиевича Одинокова. Неудивительно, что структура и ритмика стиха стали первоначальным объектом комплексного анализа. «Для исследователя интересная задача — сравнивать стихотворную технику разных авторов или ее изменения в творчестве одного и того же поэта, — поделилась Ольга Кожемякина. — В рамках нашего проекта уже построена информационная модель, на ее основе организована работа команды, созданы и реализованы алгоритмы распознавания и классификации. В настоящее время нами реализован интерфейс филолога, воспринимающий определенный круг запросов для поиска и сравнения текстов и затем выдающий достаточно точный результат». О. Ю. Кожемякина пояснила, что речь идет о больших массивах данных, то есть полных корпусах творческого наследия многих авторов за все годы их жизни. «Мы обучали нашу систему на наследии пушкинской Болдинской осени, — рассказала Ольга Юрьевна. — Теперь же машина может оперировать всеми произведениями этого или другого поэта за долгие годы». Оказалось, что можно с помощью специальных алгоритмов загрузить в машину жанровые и стилистические особенности произведений, их структуру, научить информационную систему понимать смыслы и образы, классифицировать и группировать тексты по множеству параметров, которые еще лет пять назад казались понятными только человеческому мозгу. «Литературоведение как наука учитывает не только качественные, но и количественные характеристики произведений. Когда я писала диссертацию, — вспомнила Ольга Кожемякина, — то просматривала множество пушкинских стихов, вручную отмечая в них то или иное, чтобы потом сделать подсчеты и выводы на их основании. Сегодня стало ясно, что эту черновую работу можно спокойно препоручить машине». А какую именно? Найдет ли компьютер рифму, увидит ли ударения, если они не проставлены значками? Определит ли смысл омонимов, например, «мир» как «миръ» и «мир» как «мiръ»? Владимир Барахнин объясняет: «В базе данных нашей системы есть словарь академика Андрея Анатольевича Зализняка с ударениями. Бывают, разумеется, омографы — слова, совпадающие в своем написании, но имеющие разное звучание и значение: мука? — му?ка, за?мок — замо?к и так далее. Даже в первой строке “Евгения Онегина” два слова акцентуируются неоднозначно: “Мой дядя самых чЕстнЫх прАвИл”. В таких случаях правильная акцентуация восстанавливается по аналогии — из строк без вариантов». То же самое с многозначными словами. «Разрабатываемый нами модуль анализа смысла смотрит (на основании методов машинного обучения) на окружение омографа, — рассказал Владимир Борисович. — Несколько упрощенно: если рядом есть “борьба”, “война” и т. п., то это антоним войны, а если “пир”, “пустить”, “крещеный” — то весь белый свет». «Мы пока не задумывались над именем собственным нашего продукта, тем более о создании его товарного знака, — заметил Владимир Барахнин. — Наиболее точным названием можно считать такое: компьютерный обработчик текстов». Какие задачи он может решать сегодня? Ученый вспомнил, что в 1960-х годах известный филолог Кирилл Фёдорович Тарановский высказал предположение о связи формальных характеристик стиха с его жанром. Например, лермонтовское «Выхожу один я на дорогу…» написано пятистопным хореем. Затем «Вот бреду я вдоль большой дороги…» Тютчева, «Вот я выхожу, открытый взорам…» Блока, «Гул затих. Я вышел на подмостки» Пастернака… Раздумья о жизненном выборе от лица, заметим, движущегося героя. В то же время пятистопный хорей часто используется для создания бодрых песен (например, «Широка страна моя родная», «Три танкиста», «Катюша» и т. д.). Компьютерный обработчик текстов способен определить некоторые закономерности, в том числе чисто статистические, присущие применению пятистопного хорея в философской лирике и массовом песенном жанре. Ольга Кожемякина и Владимир Барахнин пояснили, что система, созданная и совершенствуемая их командой, доступна в онлайн-режиме, но принципиально не наделена функцией самостоятельного поиска текстов, а оперирует только теми, которые в нее заложены. «Да, она изначально так и задумана, — пояснила Ольга Кожемякина. — В интернете слишком много неточностей, а то и откровенных фейков. У нас же тексты загружаются из академических собраний, наиболее выверенные, со стопроцентно подтвержденным авторством и датировками. Общедоступный поисковик и инструмент исследователя — это абсолютно разные вещи». «То, чего мы добились сегодня, уже может применяться на практике, — считает Владимир Барахнин. — В России немало филологов-стиховедов, кроме того, мы сотрудничаем с коллегами из Казахстана по анализу текстов на языке этой страны. Интересно попробовать нашу систему и в подготовке студентов филологических факультетов, изучающих структуру стиха». «Созданный нами интерфейс весьма нагляден, — добавила О. Кожемякина. — Он отображает все основные элементы и характеристики поэтической строки и произведения в целом: рифмы и их конструкции, размеры, ритмику и многое другое». Система автоматического анализа текстов умеет верно трансформировать дореформенную русскую орфографию в современную. Ученые ИВТ считают вполне вероятным в некоторой перспективе распространить свой проект и на решение проблемы максимально адекватного машинного перевода (до которого пока что далеко автоматизированным сервисам Google и других систем). Но универсальный киберфилолог — это пока нечто из области фантастики. «Мы не претендуем сегодня на решение таких задач, как определение авторства, подлинности и так далее, а также не планируем перенос возможностей нашей системы на сравнительное языкознание, — уточнила Ольга Кожемякина. — Наша цель немного иная: исследовать применительно к русской поэтической традиции связь метро-ритмических и строфических характеристик текстов с их жанрово-стилевыми особенностями. И тем самым подтвердить или опровергнуть (что менее вероятно) гипотезу Тарановского о влиянии первого на второе». Сегодняшнее состояние системы — бета-версия. Следующим этапом исследователи видят распространение ее аналитических возможностей на образы (в литературном понимании этого слова). «Образ в филологии — объект, традиционно определяемый и описываемый очень субъективно, — отметила О. Кожемякина. — Но если машину можно научить классифицировать тексты по жанрам и стилям, то почему бы не перейти на новый, более сложный и тонкий уровень? Это красивая и интересная задача — создать такие алгоритмы для анализа, которые позволят увидеть в литературном наследии взаимосвязи и закономерности, о которых мы раньше не догадывались». Андрей Соболевский Фото автора, иллюстрация Анастасии Голышевой Источник: www.sbras.info Комментарии: |
|