В какой-то момент коллеги-гуманитарии решили, что «ИИ нам поможет»

2026-05-29 11:43

Написать этот пост меня сподвигли события последних месяцев, в которые мне пришлось рецензировать несколько статей, посвященных применению Искусственного интеллекта в различных областях гуманитарных наук, подготовка отзывов на разные научные проекты и участие в невероятном количестве различных мероприятий, посвященных ИИ...

Для тех, кто далек от это проблематики, рекомендую данный пост просто пропустить – «букафф» в нем будет много, как и моих эмоций (далеко не положительных и не оптимистичных).

Начну с цитаты. Цитата пушкинская и всем известная: «Русский народ ленив и не любопытен». К сожалению, применительно к ИИ в дисциплинах, тесно связанных с исторической наукой, это замечание «Солнца русской поэзии» точно, как нигде и никогда!

В какой-то момент коллеги-гуманитарии решили, что «ИИ нам поможет» (перефраз лозунга Остапа-Сулеймана-Берта-Марии-Бендер-бея «Заграница нам поможет!»), что можно «словить хайп», попасть в «общий тренд» и занялись «реализацией проектов» на основе ИИ. «Помощников» среди коммерческих структур в этом вопросе оказалось предостаточно, и вот в очередной раз мы читаем о начале проекта с использованием ИИ в музейной, библиотечной, архивной и научной сферах….

Для человека, который волею судеб, связан с информационными технологиями более 40 лет, в этом видится «легкость мыслей необыкновенная» (© Н.В.Гоголь) и ТОТАЛЬНОЕ НЕПОНИМАНИЕ, что ИИ на самом деле представляет собой комбинацию четырех взаимосвязанных элементов:

Подготовленной соответствующим образом ИНФОРМАЦИИ (данных, поскольку ИИ работает с данными, а не документами, артефактами, файлами и т.п.),

Машинных (компьютерных) мощностей,

Программного обеспечения и

Подготовленных кадров, которые, как известно, «решают все».

Причем все четыре элементы должны соответствовать друг другу по уровню развития, и прежде чем применять какие-либо технологии или алгоритмы ИИ в гуманитарной сфере, необходимо пройти долгий путь подготовки информации (перевода в цифровой вид массивов библиотечных фондов/архивных документов/музейных артефактов, создания наборов данных, больших языковых моделей и т.п., проведения машинного обучения (deep learning), поиска адекватных методов т.п.), иметь соответствующие компьютерные мощности и понимать, что (какую задачу) с помощью чего (нейросети, байесовская статистика и т.п.) вы будете решать.

И вот тут мы сталкиваемся со второй проблемой: за многочисленными разговорами. круглыми столами, статьями, докладами, выступлениями и т.п. мы так и не удосужились приступить к созданию первого элемента – подготовке СООТВЕТСВУЮЩИМ ОБРАЗОМ информации.

Мы никак не можем понять, что оцифровка с низким разрешением и сохранением в формате jpg/pdf не даст возможности качественно распознать текст (я про рукописи), что наше категорическое нежелание создавать наборы данных (понимаю: скучно, долго, нужны специалисты в предметных областях) – палеографические, персональные, географические, терминологические с учетом исторического контекста и т.п. (фактически – словари, организованные как базы данных) не даст возможности применять алгоритмы нейросетей в задачах классификации и автоматизированного описания объектов и т.п., что ОТСУТСТВИЕ национальной большой языковой модели (БЯМ) и использование адаптированных и позаимствованных Сбером и Яндексом у зарубежных коллег БЯМ создает массу проблем при их использовании в работе с любой – особенно исторической! - документацией…

Я не люблю зарубежников, но считаю, что их опыт нужно знать и использовать. Многие из них потратили почти полвека на выработку технологий оцифровки, создание наборов данных или локальных тематических БЯМ. Для них задача создания НД – стала ключевой с середины 1990-х гг.! К началу 2010-х было создано огромное количество таких НД. Думаете, Transcribus появился на пустом месте? Нет! А если посмотреть списки научных работ, которые выполняются в рамках европейского проекта The Time Machine, то окажется, что примерно 65-70% разработок нацелены на создание НД.

Могу привести еще банальный пример – несколько лет назад в Казани проходил информационный форум, где была представлена работа по автоматизированному распознаванию рукописных текстов, написанных в арабской графике на татарском языке. Авторы использовали палеографический набор данных, созданный в MIT (США) в 2010 г., отметив, что он вполне достаточен, нужно только дополнить несколько отсутствующих символов. У меня вопрос – а что, татары у нас в массе своей в США живут? Почему мы сами не могли такой НД создать? У нас нет специалистов по татарскому языку? Мы не знаем арабской письменности, или не к ночи помянутый Остап был прав – «заграница нам поможет!»?... (Про отсутствие НД по русской палеографии я вообще молчу…?)

Почему в том же Transcribus,e есть около сотни моделей (НД) русской письменности, но все они созданы не в России или не в госучреждениях?

Мы не умеем и не хотим учиться делать НД, хотя задачу эту ставил в своем докладе АНАртизов еще в 2014 г. Услышали единицы – в Туле и в Вологде…

Сколько времени и сил было положено ими на создание электронных указателей, которые можно использовать в качестве НД? И как показал опыт – огромный труд оказался недостаточен для решения задачи распознавания – нужно больше, точнее и детальнее, о чем говорил директор ГАТО Д.Н.Антонов в 2023 г., но без этой ТИТАНИЧЕСКОЙ и осуществляемой на постоянной основе работы распознавание будет, мягко скажем, кривым…

Да, это долго, да это затратно (прежде всего с интеллектуальной точки зрения), но…

Хотите еще пример? Пожалуйста. Секретный архив Ватикана начал разработку технологии оцифровки с того, что заказал создание специализированного сканирующего оборудования. Это было в 2007 г. Следующим шагом стала тотальная оцифровка библиотеки (в том числе и рукописных фолиантов), затем – адаптация формата FITS для описания электронных копий (вот он – один из вариантов данных, которые затем можно в ИИ использовать), в середине 2010 был начат проект In Codice Ratio – по созданию автоматизированной системы распознавания рукописей, в рамках которого были созданы более 1,500 (!) моделей почерков писцов, сформированы тематические наборы данных, а с 2021 г. на основе этой информации, а также создаваемой локальной БЯМ создана система Magisterium - www.magisterium.com/ru/overview, о которой я писала пару месяцев назад. Двадцатилетний путь к генеративному искусственному интеллекту! И никто не стонал, что у нас нет времени, средств, сил и вообще – у нас много другой работы.

В плане работы NARA уже пять лет стоит задача создания собственной БЯМ на основе электронных документов, которые они получают с 2007 г. (!) и распознавания отсканированных полуторамиллиардов страниц текстов архивных документов, а в отчетах отмечается, что работа эта будет продолжатся еще долгое время, поскольку язык изменяется вместе с жизнью….

А мы? Не имея НД, отечественной БЯМ будем в автоматизированном режиме архивные фонды описывать? Да не смешите, дяденька, я вас умоляю!...

Кто-то мне скажет – так то NARA и Ватикан, у них нет проблем с деньгами. Не обольщайтесь! Денег действительно много, но главное – они их умеют считать, а не тратить на проекты, которые будут выступать в качестве повода для «попадания в ленту новостей», хайпа и «отчета пионЭрской организации съезду», а по факту - «стиральной машины» для бюджетных средств, и гарантировано ничем не завершатся. Почему «гарантировано»? Да потому что у нас нет подготовленной дОлжным образом информации, нет техники, нет специалистов, понимающих задачу и готовых находить пути ее решения, а еще мы никак не откажемся от ура-патриотичных реляций…

Пример? Пожалуйста! Читаю текст очередного научного исследования по истории кибернетики и развития ИИ в СССР. Текст написан хорошо и качественно. Только согласно этому тексту к началу 2000-х гг. у нас все было «в шоколаде»: традиции сохранили, преемственность обеспечили, даже компьютерные мощности нарастили….

А у меня вопрос – а где же все это сейчас? И почему Президент РФ на заседании 10 апреля с.г. говорит о нашем отставании в области ИИ и приоритетной задачей национального значения (!) в области ИИ обозначает создание национальной Большой Языковой Модели (http://www.kremlin.ru/events/president/news/79525?ysclid=mppadja4nb260828401) и перестройки системы подготовки кадров с учетом технологических новаций????....

Так с помощью чего и чьими руками мы будем реализовывать проекты автоматизированного описания объектов, если на создание БЯМ уходят десятилетия, на создание локальных тематических историко-ориентированных БЯМ и на формирование качественных наборов данных – годы, а подготовка кадров, в равной степени владеющих компьютерными технологиями (не на уровне написания промптов в ИИ-чат-ботах, а всерьез, т.е. с пониманием задач, их конкретизацией, выбором пути решения, созданием ТЗ, применением алгоритмов и получением качественного результата) и гуманитарными знаниями – вообще задача, результат которой для нас недостижим?

Почему недостижим? Да вот, судите сами – случайно обнаруживаю тему одного из научных мероприятий – «Роль форматов архивного хранения в организации постоянного хранения электронных документов». Господа, читающие этот текст, комментарии нужны, или вам, сумевшим открыть компьютер, ввести пароль, запустить операционку и программу приложения (т.е. тот же браузер), найти вкладку ВК, зайти на мою страницу и этот пост, с уровнем владения информационными технологиями у авторов этой темы ВСЕ ПОНЯТНО и без комментариев?

Заметьте, во всех ВУЗах страны учебные курсы по информатике были введены почти 30 лет назад, в школах информатике учат чуть ли не с первого класса, у нас выросло и уже своих детей имеет поколение детей, которые без гаджетов не мыслят своего существования, и объяснять им базовые вещи про форматы, ПО, устаревание, миграцию, конвертацию и организацию хранения как-то даже смешно – они нас с вами за пояс в этом вопросе заткнут…

Так что же получается, что эту тему формулировал старец «ветхий деньми», который комп в глаза не видел? Плохо вериться!...

Знаете, у нас даже живущие столетние соотечественники знают, что такое компьютер, поскольку именно они нам кибернетику открыли (читай выше). За рубежом впервые проблема хранения цифровой документации была поставлена в 1965 г., у нас – через 10 лет… Нам 60 лет не хватило, чтобы найти ответ на простенький вопрос из базового курса информатики?

Ну почему у тех же зарубежников национальные программы сохранения цифровой информации (документов) начались четверть века назад, а мы только сейчас (в какой же раз?) задаемся этими вопросами?

И потом, а как влияет формат (?) архивного хранения ЭД на организацию хранения где (?) на сервере? Думаю, автор формулировки даже отдаленно не представляет, как физически на сервере организуется информация… К тому же, мы что, zip-файлы ЭД пилить будем, если в их состав включены приложения в виде файлов, созданных в ПО, не имеющих «форматов архивного хранения»? (Почему мне опять цитата из Ильфа и Петрова вспоминается: «Пилите, Шура, пилите! Они золотые!»)….

А вообще получается какая-то странная, почти сюрриалистическая ситуация: с одной стороны, мы тут «все в ИИ», а с другой - с форматами разобраться не можем?

Так может быть, отбросить амбиции, признать реальность, перестать работать на рекламу в лентах новостей, прекратить имитирование забега «задрав штаны за комсомолом» ((с) С.А.Есенин) и начать, наконец, «учиться делу настоящим образом»? (автора цитаты, надеюсь, не забыли…)

Понимаю, что призыв сей – «глас вопиющего в пустыне», но так хочется надеяться на лучшее…

Телеграм: t.me/ainewsline

Источник: www.kremlin.ru

В какой-то момент коллеги-гуманитарии решили, что «ИИ нам поможет»

Комментарии: