Определение авторства текста по частотным характеристикам

2018-01-16 16:00

Тема является достаточно актуальной на сегодняшний день и охватывает большой спектр целей: от отыскания автора необходимой вам статьи в интернете или запоминающегося отрывка художественного произведения до достаточно серьёзных военных целей. Рассмотренные в данной работе методы и приёмы помогают достаточно точно определить автора необходимого вам текста или сообщения, так как базируются на особенностях речи людей.

Для определения истинного автора текста зачастую приходится обращаться к экспертам, которые могут идентифицировать автора неизвестного текста или определить принадлежность произведения другому автору при помощи характерных языковых особенностей и различных стилистических приёмов. Важно отметить, что задача установления авторства текстов (задача атрибуции) встречается в различных областях и представляет интерес для филологов, литературоведов, юристов, криминалистов, историков. В настоящее время для атрибуции текстов применяются подходы из теории распознавания образов, математической статистики и теории вероятностей, алгоритмы нейронных сетей и кластерного анализа и многие другие.

Проведём анализ существующих систем по определению авторства текста.

Атрибуция текста — исследование текста с целью установления авторства или получения каких-либо сведений об авторе и условиях создания текстового документа. Задачи атрибуции можно разделить на идентификационные и диагностические.

Идентификационные задачи решаются из предположения, что автор текста известен. Диагностические задачи позволяют определить личностные характеристики автора (образовательный уровень, родной язык, знание иностранных языков, происхождение, место постоянного проживания и др.) и факт сознательного искажения письменной речи. Диагностические задачи решаются из предположения, что автор текста неизвестен.

Существует довольно много методов анализа стиля. В целом можно разделить их на две большие группы — экспертные и формальные. Экспертные методы предполагают исследование текста профессиональным лингвистом-экспертом. К формальным относятся приёмы из теории вероятностей и математической статистики, алгоритмы кластерного анализа и нейронных сетей.

Приведём примеры существующего программного обеспечения по определению авторства текста.

Система «Лингвоанализатор». Метод, применяемый в этой системе для определения авторства текста, основан на формальной математической модели. Программа учитывает следующие характеристики языка автора: число служебных слов; используемые морфемы; уровень сложности употреблённых грамматических конструкций; словарный запас.

Система «Атрибутор». Данная программа является онлайн лингвистическим процессором для машинного сравнения текстов и их классификации по параметрам индивидуального авторского стиля. Произведения подбирались так, чтобы тексты разных писателей имели как можно больше различий, а тексты одного писателя имели максимальные сходства. На данный момент система обучена сравнивать только тексты романов. Для атрибуции достаточно примерно шесть печатных страниц.

Система «СМАЛТ». Система состоит из двух основных блоков: функционального (анализ, база данных) и аналитического (реализация методик статистического анализа текстов). Проект ещё не доработан до конца и предполагает разработку информационной системы, применяющую статистические методы анализа. В основе должна иметься база литературных произведений, состоящая из публицистики 60–70 гг. 19 века. Обработка текстов в данной системе производится поэтапно. Сперва производится автоматизированное разбиение исходного текста на: раздел, абзац, предложение, слово. Затем осуществляется автоматическая обработка текста, его морфологический разбор и синтаксический анализ. После чего пользователем выполняются операции из базы данных по анализу текстов.

Система «Авторовед». Программа, основанная на фоносемантическом анализе, составляет психологический портрет автора. Система содержит набор DLL-библиотек, которые подключаются к текстовому процессору Word for Windows, и в главном меню появляется новый пункт. Таким образом, данная программная система позволяет пользователю работать в привычной для него среде.

Среди программных продуктов для определения авторства текстов можно выделить систему «Антиплагиат» (antiplagiat.ru). Этот интернет-сервис предлагает осуществить проверку текстовых документов на наличие заимствований из общедоступных сетевых источников. Система позволяет проводить атрибуцию текстов на различных языках. Поиск совпадений осуществляется методом сравнения последовательностей символов без учёта языковых особенностей и речевых взаимосвязей. За счёт этого достигается высокая, в несколько секунд, скорость поиска совпадений.

Для выполнения поставленной задачи применяются методы из теории вероятностей и математической статистики для атрибуции текстов. Предлагаемый метод основан на учёте статистики употребления пар элементов любой природы, идущих друг за другом в тексте (букв, морфем, словоформ и т. п.), то есть на формальной математической модели последовательности букв (и любых других элементов) текста как реализации цепи Маркова (последовательности случайных событий с конечным или счётным числом исходов, характеризующаяся тем свойством, что, говоря нестрого, при фиксированном настоящем будущее не зависимо от прошлого). По темам произведений авторов, которые достоверно ими созданы, вычислялась матрица переходных частот употребления пар элементов (букв, грамматических классов слов и т. п.). Она служила оценкой матрицы вероятности перехода из элемента в элемент. Для каждого автора строилась матрица переходных частот и оценивалась вероятность того, что именно он написал анонимный текст (или фрагмент текста). Автором анонимного текста считался тот, для кого вычисленная оценка вероятности больше.

Использованные материалы:

moluch.ru/conf/tech/archive/286/13237;

ru.wikipedia.org/wiki/Цепь_Маркова.

Телеграм: t.me/ainewsline

Источник: vk.com



		Определение авторства текста по частотным характеристикам
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ Атаки на ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2018-01-16 16:00 компьютерная лингвистика Определение авторства текста по частотным характеристикам Тема является достаточно актуальной на сегодняшний день и охватывает большой спектр целей: от отыскания автора необходимой вам статьи в интернете или запоминающегося отрывка художественного произведения до достаточно серьёзных военных целей. Рассмотренные в данной работе методы и приёмы помогают достаточно точно определить автора необходимого вам текста или сообщения, так как базируются на особенностях речи людей. Для определения истинного автора текста зачастую приходится обращаться к экспертам, которые могут идентифицировать автора неизвестного текста или определить принадлежность произведения другому автору при помощи характерных языковых особенностей и различных стилистических приёмов. Важно отметить, что задача установления авторства текстов (задача атрибуции) встречается в различных областях и представляет интерес для филологов, литературоведов, юристов, криминалистов, историков. В настоящее время для атрибуции текстов применяются подходы из теории распознавания образов, математической статистики и теории вероятностей, алгоритмы нейронных сетей и кластерного анализа и многие другие. Проведём анализ существующих систем по определению авторства текста. Атрибуция текста — исследование текста с целью установления авторства или получения каких-либо сведений об авторе и условиях создания текстового документа. Задачи атрибуции можно разделить на идентификационные и диагностические. Идентификационные задачи решаются из предположения, что автор текста известен. Диагностические задачи позволяют определить личностные характеристики автора (образовательный уровень, родной язык, знание иностранных языков, происхождение, место постоянного проживания и др.) и факт сознательного искажения письменной речи. Диагностические задачи решаются из предположения, что автор текста неизвестен. Существует довольно много методов анализа стиля. В целом можно разделить их на две большие группы — экспертные и формальные. Экспертные методы предполагают исследование текста профессиональным лингвистом-экспертом. К формальным относятся приёмы из теории вероятностей и математической статистики, алгоритмы кластерного анализа и нейронных сетей. Приведём примеры существующего программного обеспечения по определению авторства текста. Система «Лингвоанализатор». Метод, применяемый в этой системе для определения авторства текста, основан на формальной математической модели. Программа учитывает следующие характеристики языка автора: число служебных слов; используемые морфемы; уровень сложности употреблённых грамматических конструкций; словарный запас. Система «Атрибутор». Данная программа является онлайн лингвистическим процессором для машинного сравнения текстов и их классификации по параметрам индивидуального авторского стиля. Произведения подбирались так, чтобы тексты разных писателей имели как можно больше различий, а тексты одного писателя имели максимальные сходства. На данный момент система обучена сравнивать только тексты романов. Для атрибуции достаточно примерно шесть печатных страниц. Система «СМАЛТ». Система состоит из двух основных блоков: функционального (анализ, база данных) и аналитического (реализация методик статистического анализа текстов). Проект ещё не доработан до конца и предполагает разработку информационной системы, применяющую статистические методы анализа. В основе должна иметься база литературных произведений, состоящая из публицистики 60–70 гг. 19 века. Обработка текстов в данной системе производится поэтапно. Сперва производится автоматизированное разбиение исходного текста на: раздел, абзац, предложение, слово. Затем осуществляется автоматическая обработка текста, его морфологический разбор и синтаксический анализ. После чего пользователем выполняются операции из базы данных по анализу текстов. Система «Авторовед». Программа, основанная на фоносемантическом анализе, составляет психологический портрет автора. Система содержит набор DLL-библиотек, которые подключаются к текстовому процессору Word for Windows, и в главном меню появляется новый пункт. Таким образом, данная программная система позволяет пользователю работать в привычной для него среде. Среди программных продуктов для определения авторства текстов можно выделить систему «Антиплагиат» (antiplagiat.ru). Этот интернет-сервис предлагает осуществить проверку текстовых документов на наличие заимствований из общедоступных сетевых источников. Система позволяет проводить атрибуцию текстов на различных языках. Поиск совпадений осуществляется методом сравнения последовательностей символов без учёта языковых особенностей и речевых взаимосвязей. За счёт этого достигается высокая, в несколько секунд, скорость поиска совпадений. Для выполнения поставленной задачи применяются методы из теории вероятностей и математической статистики для атрибуции текстов. Предлагаемый метод основан на учёте статистики употребления пар элементов любой природы, идущих друг за другом в тексте (букв, морфем, словоформ и т. п.), то есть на формальной математической модели последовательности букв (и любых других элементов) текста как реализации цепи Маркова (последовательности случайных событий с конечным или счётным числом исходов, характеризующаяся тем свойством, что, говоря нестрого, при фиксированном настоящем будущее не зависимо от прошлого). По темам произведений авторов, которые достоверно ими созданы, вычислялась матрица переходных частот употребления пар элементов (букв, грамматических классов слов и т. п.). Она служила оценкой матрицы вероятности перехода из элемента в элемент. Для каждого автора строилась матрица переходных частот и оценивалась вероятность того, что именно он написал анонимный текст (или фрагмент текста). Автором анонимного текста считался тот, для кого вычисленная оценка вероятности больше. Использованные материалы: moluch.ru/conf/tech/archive/286/13237; ru.wikipedia.org/wiki/Цепь_Маркова. Телеграм: t.me/ainewsline Источник: vk.com Комментарии:

Определение авторства текста по частотным характеристикам

Комментарии: