Готовлю новую платформу Семографа

2026-06-30 12:10

Готовлю новую платформу Семографа. Формально это Семограф-5 (и движок в его основе тот же), но слово «версия» тут уже не очень подходит: за последние месяцы это стало скорее новой рабочей средой для анализа и разметки текстов (печатных, аудио и мультимодальных), поиска языковых конструкций и постепенного перехода от экспертного полевого анализа или компьютеризованного контент-анализа к более сложным интерпретирующим процедурам.

Буду понемногу показывать, что там появляется. Начать хочу с наверное самой интеллектуальной части: ЛСШ/Решателя.

ЛСШ – лексико-синтаксические шаблоны – это способ искать в тексте не только отдельные слова, а конструкции: часть речи, лемму, форму слова, синтаксическую связь, порядок слов, согласование, расстояние между словами и т.д. Основа здесь – морфологический и синтаксический разбор текста: токены, леммы, части речи, грамматические признаки и зависимости между словами. Сейчас для этого используется UDPipe.

Самый простой пример – поиск согласованных пар «прилагательное + существительное» в пушкинском тексте. В шаблоне задаются две ноды: ADJ и NOUN, между ними синтаксическая связь, плюс проверка согласования по роду, числу и падежу. Можно добавить и линейное условие: например, чтобы слова стояли рядом в определенном порядке, без промежутка слов. На выходе получается конкорданс: строки текста с найденными сочетаниями и контекстом вокруг них.

Но ЛСШ не ограничивается грамматикой. Можно подключать словари: например, искать категории слов из словника в компьютеризованном контент-анализе, но сразу задавать исключения. Для контент-анализа характерна проблема ложных срабатываний. Если индексатор просто сопоставляет токены со словником, он часто игнорирует омонимию, отрицание и фразеологизированные или устойчивые сочетания. В результате в категорию попадают слова, которые формально совпали со словарём, но семантически работают иначе: например, входят в коллокацию, меняют значение под действием «не» или относятся к другому грамматическому/смысловому классу. И благодаря использованию ЛСШ можно исключать устойчивые выражения вроде «друг друга» и не индексировать их как проявление Лояльности (в парадигме Теории моральных оснований).

Еще дальше начинается слой Решателя. Он нужен там, где одного «найти» мало. Например, в нормативных текстах важно не просто увидеть слово «должен» или «следует», а понять, что перед нами деонтическая конструкция: обязанность, запрет, разрешение. После этого текст можно разложить на семантические дескрипторы: что является объектом нормирования, какое действие предписано, какой объект действия, при каком условии, на каком основании, в какой срок, есть ли исключение или ссылка на другой пункт/ГОСТ.

Например, фраза вроде «расчёты должны обеспечивать надёжность зданий…» превращается не просто в совпадение по слову «должны», а в структуру: объект нормирования – расчёты, действие – обеспечивать, объект – надёжность зданий, срок – в течение срока службы, основание или ссылка – если они есть в конструкции. Это всё строится детерминированно, без LLM-вердикта: нейросеть не «решает», соблюдена ли норма, а система сначала собирает проверяемую структуру.

Ноду ИИ-куратора все-таки сделал, но у неё другая функция: в случае спорных примеров давать свой вердикт и отправлять на проверку.

Пока результаты можно выводить в KWIC/конкорданс, как обычные найденные фрагменты. Но их можно и записывать в разметку проекта, как в контент-анализе: тогда найденные конструкции становятся данными, с которыми дальше можно работать, проверять, фильтровать, отправлять в Журнал, уточнять вручную, вычислять С-карты и др.

Мне здесь интересно именно то, что ЛСШ/Решатель находится между классическим контент-анализом и более сложной машинной интерпретацией текста. С одной стороны, всё ещё есть прозрачные правила, шаблоны, словари, доказуемые совпадения. С другой – уже появляется слой, где текст раскладывается на действия, условия, основания, ссылки и применимость.

На данном этапе уже можно собирать пайплайны: источник текста ? шаблон/пакет ? семантические дескрипторы ? вывод в конкорданс или Журнал. Дальше буду показывать отдельные части подробнее.

Если меня прочитают коллеги по Кибернормативу, хочу всем вам выразить признательность за то, что во многом та интеллектуальная деятельность и общение в рамках проекта подтолкнули к этим методологическим и технологическим решениям.

Телеграм: t.me/ainewsline

Источник: vk.com



		Готовлю новую платформу Семографа
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ Атаки на ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2026-06-30 12:10 лингвистика, компьютерная лингвистика Готовлю новую платформу Семографа. Формально это Семограф-5 (и движок в его основе тот же), но слово «версия» тут уже не очень подходит: за последние месяцы это стало скорее новой рабочей средой для анализа и разметки текстов (печатных, аудио и мультимодальных), поиска языковых конструкций и постепенного перехода от экспертного полевого анализа или компьютеризованного контент-анализа к более сложным интерпретирующим процедурам. Буду понемногу показывать, что там появляется. Начать хочу с наверное самой интеллектуальной части: ЛСШ/Решателя. ЛСШ – лексико-синтаксические шаблоны – это способ искать в тексте не только отдельные слова, а конструкции: часть речи, лемму, форму слова, синтаксическую связь, порядок слов, согласование, расстояние между словами и т.д. Основа здесь – морфологический и синтаксический разбор текста: токены, леммы, части речи, грамматические признаки и зависимости между словами. Сейчас для этого используется UDPipe. Самый простой пример – поиск согласованных пар «прилагательное + существительное» в пушкинском тексте. В шаблоне задаются две ноды: ADJ и NOUN, между ними синтаксическая связь, плюс проверка согласования по роду, числу и падежу. Можно добавить и линейное условие: например, чтобы слова стояли рядом в определенном порядке, без промежутка слов. На выходе получается конкорданс: строки текста с найденными сочетаниями и контекстом вокруг них. Но ЛСШ не ограничивается грамматикой. Можно подключать словари: например, искать категории слов из словника в компьютеризованном контент-анализе, но сразу задавать исключения. Для контент-анализа характерна проблема ложных срабатываний. Если индексатор просто сопоставляет токены со словником, он часто игнорирует омонимию, отрицание и фразеологизированные или устойчивые сочетания. В результате в категорию попадают слова, которые формально совпали со словарём, но семантически работают иначе: например, входят в коллокацию, меняют значение под действием «не» или относятся к другому грамматическому/смысловому классу. И благодаря использованию ЛСШ можно исключать устойчивые выражения вроде «друг друга» и не индексировать их как проявление Лояльности (в парадигме Теории моральных оснований). Еще дальше начинается слой Решателя. Он нужен там, где одного «найти» мало. Например, в нормативных текстах важно не просто увидеть слово «должен» или «следует», а понять, что перед нами деонтическая конструкция: обязанность, запрет, разрешение. После этого текст можно разложить на семантические дескрипторы: что является объектом нормирования, какое действие предписано, какой объект действия, при каком условии, на каком основании, в какой срок, есть ли исключение или ссылка на другой пункт/ГОСТ. Например, фраза вроде «расчёты должны обеспечивать надёжность зданий…» превращается не просто в совпадение по слову «должны», а в структуру: объект нормирования – расчёты, действие – обеспечивать, объект – надёжность зданий, срок – в течение срока службы, основание или ссылка – если они есть в конструкции. Это всё строится детерминированно, без LLM-вердикта: нейросеть не «решает», соблюдена ли норма, а система сначала собирает проверяемую структуру. Ноду ИИ-куратора все-таки сделал, но у неё другая функция: в случае спорных примеров давать свой вердикт и отправлять на проверку. Пока результаты можно выводить в KWIC/конкорданс, как обычные найденные фрагменты. Но их можно и записывать в разметку проекта, как в контент-анализе: тогда найденные конструкции становятся данными, с которыми дальше можно работать, проверять, фильтровать, отправлять в Журнал, уточнять вручную, вычислять С-карты и др. Мне здесь интересно именно то, что ЛСШ/Решатель находится между классическим контент-анализом и более сложной машинной интерпретацией текста. С одной стороны, всё ещё есть прозрачные правила, шаблоны, словари, доказуемые совпадения. С другой – уже появляется слой, где текст раскладывается на действия, условия, основания, ссылки и применимость. На данном этапе уже можно собирать пайплайны: источник текста ? шаблон/пакет ? семантические дескрипторы ? вывод в конкорданс или Журнал. Дальше буду показывать отдельные части подробнее. Если меня прочитают коллеги по Кибернормативу, хочу всем вам выразить признательность за то, что во многом та интеллектуальная деятельность и общение в рамках проекта подтолкнули к этим методологическим и технологическим решениям. Телеграм: t.me/ainewsline Источник: vk.com Комментарии:

Готовлю новую платформу Семографа

Комментарии: