Готовлю новую платформу Семографа |
||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2026-06-30 12:10 Готовлю новую платформу Семографа. Формально это Семограф-5 (и движок в его основе тот же), но слово «версия» тут уже не очень подходит: за последние месяцы это стало скорее новой рабочей средой для анализа и разметки текстов (печатных, аудио и мультимодальных), поиска языковых конструкций и постепенного перехода от экспертного полевого анализа или компьютеризованного контент-анализа к более сложным интерпретирующим процедурам. Буду понемногу показывать, что там появляется. Начать хочу с наверное самой интеллектуальной части: ЛСШ/Решателя. ЛСШ – лексико-синтаксические шаблоны – это способ искать в тексте не только отдельные слова, а конструкции: часть речи, лемму, форму слова, синтаксическую связь, порядок слов, согласование, расстояние между словами и т.д. Основа здесь – морфологический и синтаксический разбор текста: токены, леммы, части речи, грамматические признаки и зависимости между словами. Сейчас для этого используется UDPipe. Самый простой пример – поиск согласованных пар «прилагательное + существительное» в пушкинском тексте. В шаблоне задаются две ноды: ADJ и NOUN, между ними синтаксическая связь, плюс проверка согласования по роду, числу и падежу. Можно добавить и линейное условие: например, чтобы слова стояли рядом в определенном порядке, без промежутка слов. На выходе получается конкорданс: строки текста с найденными сочетаниями и контекстом вокруг них. Но ЛСШ не ограничивается грамматикой. Можно подключать словари: например, искать категории слов из словника в компьютеризованном контент-анализе, но сразу задавать исключения. Для контент-анализа характерна проблема ложных срабатываний. Если индексатор просто сопоставляет токены со словником, он часто игнорирует омонимию, отрицание и фразеологизированные или устойчивые сочетания. В результате в категорию попадают слова, которые формально совпали со словарём, но семантически работают иначе: например, входят в коллокацию, меняют значение под действием «не» или относятся к другому грамматическому/смысловому классу. И благодаря использованию ЛСШ можно исключать устойчивые выражения вроде «друг друга» и не индексировать их как проявление Лояльности (в парадигме Теории моральных оснований). Еще дальше начинается слой Решателя. Он нужен там, где одного «найти» мало. Например, в нормативных текстах важно не просто увидеть слово «должен» или «следует», а понять, что перед нами деонтическая конструкция: обязанность, запрет, разрешение. После этого текст можно разложить на семантические дескрипторы: что является объектом нормирования, какое действие предписано, какой объект действия, при каком условии, на каком основании, в какой срок, есть ли исключение или ссылка на другой пункт/ГОСТ. Например, фраза вроде «расчёты должны обеспечивать надёжность зданий…» превращается не просто в совпадение по слову «должны», а в структуру: объект нормирования – расчёты, действие – обеспечивать, объект – надёжность зданий, срок – в течение срока службы, основание или ссылка – если они есть в конструкции. Это всё строится детерминированно, без LLM-вердикта: нейросеть не «решает», соблюдена ли норма, а система сначала собирает проверяемую структуру. Ноду ИИ-куратора все-таки сделал, но у неё другая функция: в случае спорных примеров давать свой вердикт и отправлять на проверку. Пока результаты можно выводить в KWIC/конкорданс, как обычные найденные фрагменты. Но их можно и записывать в разметку проекта, как в контент-анализе: тогда найденные конструкции становятся данными, с которыми дальше можно работать, проверять, фильтровать, отправлять в Журнал, уточнять вручную, вычислять С-карты и др. Мне здесь интересно именно то, что ЛСШ/Решатель находится между классическим контент-анализом и более сложной машинной интерпретацией текста. С одной стороны, всё ещё есть прозрачные правила, шаблоны, словари, доказуемые совпадения. С другой – уже появляется слой, где текст раскладывается на действия, условия, основания, ссылки и применимость. На данном этапе уже можно собирать пайплайны: источник текста ? шаблон/пакет ? семантические дескрипторы ? вывод в конкорданс или Журнал. Дальше буду показывать отдельные части подробнее. Если меня прочитают коллеги по Кибернормативу, хочу всем вам выразить признательность за то, что во многом та интеллектуальная деятельность и общение в рамках проекта подтолкнули к этим методологическим и технологическим решениям. Телеграм: t.me/ainewsline Источник: vk.com Комментарии: |
|