Определение авторства текста по частотным характеристикам

МЕНЮ


Искусственный интеллект. Новости
Поиск

ТЕМЫ


Новости ИИРабота разумаВнедрение ИИРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информации

RSS


RSS новости

Авторизация



Новостная лента форума ailab.ru

Определение авторства текста по частотным характеристикам

Тема является достаточно актуальной на сегодняшний день и охватывает большой спектр целей: от отыскания автора необходимой вам статьи в интернете или запоминающегося отрывка художественного произведения до достаточно серьёзных военных целей. Рассмотренные в данной работе методы и приёмы помогают достаточно точно определить автора необходимого вам текста или сообщения, так как базируются на особенностях речи людей.

Для определения истинного автора текста зачастую приходится обращаться к экспертам, которые могут идентифицировать автора неизвестного текста или определить принадлежность произведения другому автору при помощи характерных языковых особенностей и различных стилистических приёмов. Важно отметить, что задача установления авторства текстов (задача атрибуции) встречается в различных областях и представляет интерес для филологов, литературоведов, юристов, криминалистов, историков. В настоящее время для атрибуции текстов применяются подходы из теории распознавания образов, математической статистики и теории вероятностей, алгоритмы нейронных сетей и кластерного анализа и многие другие.

Проведём анализ существующих систем по определению авторства текста.

Атрибуция текста — исследование текста с целью установления авторства или получения каких-либо сведений об авторе и условиях создания текстового документа. Задачи атрибуции можно разделить на идентификационные и диагностические.

Идентификационные задачи решаются из предположения, что автор текста известен. Диагностические задачи позволяют определить личностные характеристики автора (образовательный уровень, родной язык, знание иностранных языков, происхождение, место постоянного проживания и др.) и факт сознательного искажения письменной речи. Диагностические задачи решаются из предположения, что автор текста неизвестен.

Существует довольно много методов анализа стиля. В целом можно разделить их на две большие группы — экспертные и формальные. Экспертные методы предполагают исследование текста профессиональным лингвистом-экспертом. К формальным относятся приёмы из теории вероятностей и математической статистики, алгоритмы кластерного анализа и нейронных сетей.

Приведём примеры существующего программного обеспечения по определению авторства текста.

Система «Лингвоанализатор». Метод, применяемый в этой системе для определения авторства текста, основан на формальной математической модели. Программа учитывает следующие характеристики языка автора: число служебных слов; используемые морфемы; уровень сложности употреблённых грамматических конструкций; словарный запас.

Система «Атрибутор». Данная программа является онлайн лингвистическим процессором для машинного сравнения текстов и их классификации по параметрам индивидуального авторского стиля. Произведения подбирались так, чтобы тексты разных писателей имели как можно больше различий, а тексты одного писателя имели максимальные сходства. На данный момент система обучена сравнивать только тексты романов. Для атрибуции достаточно примерно шесть печатных страниц.

Система «СМАЛТ». Система состоит из двух основных блоков: функционального (анализ, база данных) и аналитического (реализация методик статистического анализа текстов). Проект ещё не доработан до конца и предполагает разработку информационной системы, применяющую статистические методы анализа. В основе должна иметься база литературных произведений, состоящая из публицистики 60–70 гг. 19 века. Обработка текстов в данной системе производится поэтапно. Сперва производится автоматизированное разбиение исходного текста на: раздел, абзац, предложение, слово. Затем осуществляется автоматическая обработка текста, его морфологический разбор и синтаксический анализ. После чего пользователем выполняются операции из базы данных по анализу текстов.

Система «Авторовед». Программа, основанная на фоносемантическом анализе, составляет психологический портрет автора. Система содержит набор DLL-библиотек, которые подключаются к текстовому процессору Word for Windows, и в главном меню появляется новый пункт. Таким образом, данная программная система позволяет пользователю работать в привычной для него среде.

Среди программных продуктов для определения авторства текстов можно выделить систему «Антиплагиат» (antiplagiat.ru). Этот интернет-сервис предлагает осуществить проверку текстовых документов на наличие заимствований из общедоступных сетевых источников. Система позволяет проводить атрибуцию текстов на различных языках. Поиск совпадений осуществляется методом сравнения последовательностей символов без учёта языковых особенностей и речевых взаимосвязей. За счёт этого достигается высокая, в несколько секунд, скорость поиска совпадений.

Для выполнения поставленной задачи применяются методы из теории вероятностей и математической статистики для атрибуции текстов. Предлагаемый метод основан на учёте статистики употребления пар элементов любой природы, идущих друг за другом в тексте (букв, морфем, словоформ и т. п.), то есть на формальной математической модели последовательности букв (и любых других элементов) текста как реализации цепи Маркова (последовательности случайных событий с конечным или счётным числом исходов, характеризующаяся тем свойством, что, говоря нестрого, при фиксированном настоящем будущее не зависимо от прошлого). По темам произведений авторов, которые достоверно ими созданы, вычислялась матрица переходных частот употребления пар элементов (букв, грамматических классов слов и т. п.). Она служила оценкой матрицы вероятности перехода из элемента в элемент. Для каждого автора строилась матрица переходных частот и оценивалась вероятность того, что именно он написал анонимный текст (или фрагмент текста). Автором анонимного текста считался тот, для кого вычисленная оценка вероятности больше.

Использованные материалы:

moluch.ru/conf/tech/archive/286/13237;

ru.wikipedia.org/wiki/Цепь_Маркова.