Готовлю новую платформу Семографа

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



Готовлю новую платформу Семографа. Формально это Семограф-5 (и движок в его основе тот же), но слово «версия» тут уже не очень подходит: за последние месяцы это стало скорее новой рабочей средой для анализа и разметки текстов (печатных, аудио и мультимодальных), поиска языковых конструкций и постепенного перехода от экспертного полевого анализа или компьютеризованного контент-анализа к более сложным интерпретирующим процедурам.

Буду понемногу показывать, что там появляется. Начать хочу с наверное самой интеллектуальной части: ЛСШ/Решателя.

ЛСШ – лексико-синтаксические шаблоны – это способ искать в тексте не только отдельные слова, а конструкции: часть речи, лемму, форму слова, синтаксическую связь, порядок слов, согласование, расстояние между словами и т.д. Основа здесь – морфологический и синтаксический разбор текста: токены, леммы, части речи, грамматические признаки и зависимости между словами. Сейчас для этого используется UDPipe.

Самый простой пример – поиск согласованных пар «прилагательное + существительное» в пушкинском тексте. В шаблоне задаются две ноды: ADJ и NOUN, между ними синтаксическая связь, плюс проверка согласования по роду, числу и падежу. Можно добавить и линейное условие: например, чтобы слова стояли рядом в определенном порядке, без промежутка слов. На выходе получается конкорданс: строки текста с найденными сочетаниями и контекстом вокруг них.

Но ЛСШ не ограничивается грамматикой. Можно подключать словари: например, искать категории слов из словника в компьютеризованном контент-анализе, но сразу задавать исключения. Для контент-анализа характерна проблема ложных срабатываний. Если индексатор просто сопоставляет токены со словником, он часто игнорирует омонимию, отрицание и фразеологизированные или устойчивые сочетания. В результате в категорию попадают слова, которые формально совпали со словарём, но семантически работают иначе: например, входят в коллокацию, меняют значение под действием «не» или относятся к другому грамматическому/смысловому классу. И благодаря использованию ЛСШ можно исключать устойчивые выражения вроде «друг друга» и не индексировать их как проявление Лояльности (в парадигме Теории моральных оснований).

Еще дальше начинается слой Решателя. Он нужен там, где одного «найти» мало. Например, в нормативных текстах важно не просто увидеть слово «должен» или «следует», а понять, что перед нами деонтическая конструкция: обязанность, запрет, разрешение. После этого текст можно разложить на семантические дескрипторы: что является объектом нормирования, какое действие предписано, какой объект действия, при каком условии, на каком основании, в какой срок, есть ли исключение или ссылка на другой пункт/ГОСТ.

Например, фраза вроде «расчёты должны обеспечивать надёжность зданий…» превращается не просто в совпадение по слову «должны», а в структуру: объект нормирования – расчёты, действие – обеспечивать, объект – надёжность зданий, срок – в течение срока службы, основание или ссылка – если они есть в конструкции. Это всё строится детерминированно, без LLM-вердикта: нейросеть не «решает», соблюдена ли норма, а система сначала собирает проверяемую структуру.

Ноду ИИ-куратора все-таки сделал, но у неё другая функция: в случае спорных примеров давать свой вердикт и отправлять на проверку.

Пока результаты можно выводить в KWIC/конкорданс, как обычные найденные фрагменты. Но их можно и записывать в разметку проекта, как в контент-анализе: тогда найденные конструкции становятся данными, с которыми дальше можно работать, проверять, фильтровать, отправлять в Журнал, уточнять вручную, вычислять С-карты и др.

Мне здесь интересно именно то, что ЛСШ/Решатель находится между классическим контент-анализом и более сложной машинной интерпретацией текста. С одной стороны, всё ещё есть прозрачные правила, шаблоны, словари, доказуемые совпадения. С другой – уже появляется слой, где текст раскладывается на действия, условия, основания, ссылки и применимость.

На данном этапе уже можно собирать пайплайны: источник текста ? шаблон/пакет ? семантические дескрипторы ? вывод в конкорданс или Журнал. Дальше буду показывать отдельные части подробнее.

Если меня прочитают коллеги по Кибернормативу, хочу всем вам выразить признательность за то, что во многом та интеллектуальная деятельность и общение в рамках проекта подтолкнули к этим методологическим и технологическим решениям.


Телеграм: t.me/ainewsline

Источник: vk.com

Комментарии: