В какой-то момент коллеги-гуманитарии решили, что «ИИ нам поможет» |
||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2026-05-29 11:43 Написать этот пост меня сподвигли события последних месяцев, в которые мне пришлось рецензировать несколько статей, посвященных применению Искусственного интеллекта в различных областях гуманитарных наук, подготовка отзывов на разные научные проекты и участие в невероятном количестве различных мероприятий, посвященных ИИ... Для тех, кто далек от это проблематики, рекомендую данный пост просто пропустить – «букафф» в нем будет много, как и моих эмоций (далеко не положительных и не оптимистичных). Начну с цитаты. Цитата пушкинская и всем известная: «Русский народ ленив и не любопытен». К сожалению, применительно к ИИ в дисциплинах, тесно связанных с исторической наукой, это замечание «Солнца русской поэзии» точно, как нигде и никогда! В какой-то момент коллеги-гуманитарии решили, что «ИИ нам поможет» (перефраз лозунга Остапа-Сулеймана-Берта-Марии-Бендер-бея «Заграница нам поможет!»), что можно «словить хайп», попасть в «общий тренд» и занялись «реализацией проектов» на основе ИИ. «Помощников» среди коммерческих структур в этом вопросе оказалось предостаточно, и вот в очередной раз мы читаем о начале проекта с использованием ИИ в музейной, библиотечной, архивной и научной сферах…. Для человека, который волею судеб, связан с информационными технологиями более 40 лет, в этом видится «легкость мыслей необыкновенная» (© Н.В.Гоголь) и ТОТАЛЬНОЕ НЕПОНИМАНИЕ, что ИИ на самом деле представляет собой комбинацию четырех взаимосвязанных элементов: Подготовленной соответствующим образом ИНФОРМАЦИИ (данных, поскольку ИИ работает с данными, а не документами, артефактами, файлами и т.п.), Машинных (компьютерных) мощностей, Программного обеспечения и Подготовленных кадров, которые, как известно, «решают все». Причем все четыре элементы должны соответствовать друг другу по уровню развития, и прежде чем применять какие-либо технологии или алгоритмы ИИ в гуманитарной сфере, необходимо пройти долгий путь подготовки информации (перевода в цифровой вид массивов библиотечных фондов/архивных документов/музейных артефактов, создания наборов данных, больших языковых моделей и т.п., проведения машинного обучения (deep learning), поиска адекватных методов т.п.), иметь соответствующие компьютерные мощности и понимать, что (какую задачу) с помощью чего (нейросети, байесовская статистика и т.п.) вы будете решать. И вот тут мы сталкиваемся со второй проблемой: за многочисленными разговорами. круглыми столами, статьями, докладами, выступлениями и т.п. мы так и не удосужились приступить к созданию первого элемента – подготовке СООТВЕТСВУЮЩИМ ОБРАЗОМ информации. Мы никак не можем понять, что оцифровка с низким разрешением и сохранением в формате jpg/pdf не даст возможности качественно распознать текст (я про рукописи), что наше категорическое нежелание создавать наборы данных (понимаю: скучно, долго, нужны специалисты в предметных областях) – палеографические, персональные, географические, терминологические с учетом исторического контекста и т.п. (фактически – словари, организованные как базы данных) не даст возможности применять алгоритмы нейросетей в задачах классификации и автоматизированного описания объектов и т.п., что ОТСУТСТВИЕ национальной большой языковой модели (БЯМ) и использование адаптированных и позаимствованных Сбером и Яндексом у зарубежных коллег БЯМ создает массу проблем при их использовании в работе с любой – особенно исторической! - документацией… Я не люблю зарубежников, но считаю, что их опыт нужно знать и использовать. Многие из них потратили почти полвека на выработку технологий оцифровки, создание наборов данных или локальных тематических БЯМ. Для них задача создания НД – стала ключевой с середины 1990-х гг.! К началу 2010-х было создано огромное количество таких НД. Думаете, Transcribus появился на пустом месте? Нет! А если посмотреть списки научных работ, которые выполняются в рамках европейского проекта The Time Machine, то окажется, что примерно 65-70% разработок нацелены на создание НД. Могу привести еще банальный пример – несколько лет назад в Казани проходил информационный форум, где была представлена работа по автоматизированному распознаванию рукописных текстов, написанных в арабской графике на татарском языке. Авторы использовали палеографический набор данных, созданный в MIT (США) в 2010 г., отметив, что он вполне достаточен, нужно только дополнить несколько отсутствующих символов. У меня вопрос – а что, татары у нас в массе своей в США живут? Почему мы сами не могли такой НД создать? У нас нет специалистов по татарскому языку? Мы не знаем арабской письменности, или не к ночи помянутый Остап был прав – «заграница нам поможет!»?... (Про отсутствие НД по русской палеографии я вообще молчу…?) Почему в том же Transcribus,e есть около сотни моделей (НД) русской письменности, но все они созданы не в России или не в госучреждениях? Мы не умеем и не хотим учиться делать НД, хотя задачу эту ставил в своем докладе АНАртизов еще в 2014 г. Услышали единицы – в Туле и в Вологде… Сколько времени и сил было положено ими на создание электронных указателей, которые можно использовать в качестве НД? И как показал опыт – огромный труд оказался недостаточен для решения задачи распознавания – нужно больше, точнее и детальнее, о чем говорил директор ГАТО Д.Н.Антонов в 2023 г., но без этой ТИТАНИЧЕСКОЙ и осуществляемой на постоянной основе работы распознавание будет, мягко скажем, кривым… Да, это долго, да это затратно (прежде всего с интеллектуальной точки зрения), но… Хотите еще пример? Пожалуйста. Секретный архив Ватикана начал разработку технологии оцифровки с того, что заказал создание специализированного сканирующего оборудования. Это было в 2007 г. Следующим шагом стала тотальная оцифровка библиотеки (в том числе и рукописных фолиантов), затем – адаптация формата FITS для описания электронных копий (вот он – один из вариантов данных, которые затем можно в ИИ использовать), в середине 2010 был начат проект In Codice Ratio – по созданию автоматизированной системы распознавания рукописей, в рамках которого были созданы более 1,500 (!) моделей почерков писцов, сформированы тематические наборы данных, а с 2021 г. на основе этой информации, а также создаваемой локальной БЯМ создана система Magisterium - www.magisterium.com/ru/overview, о которой я писала пару месяцев назад. Двадцатилетний путь к генеративному искусственному интеллекту! И никто не стонал, что у нас нет времени, средств, сил и вообще – у нас много другой работы. В плане работы NARA уже пять лет стоит задача создания собственной БЯМ на основе электронных документов, которые они получают с 2007 г. (!) и распознавания отсканированных полуторамиллиардов страниц текстов архивных документов, а в отчетах отмечается, что работа эта будет продолжатся еще долгое время, поскольку язык изменяется вместе с жизнью…. А мы? Не имея НД, отечественной БЯМ будем в автоматизированном режиме архивные фонды описывать? Да не смешите, дяденька, я вас умоляю!... Кто-то мне скажет – так то NARA и Ватикан, у них нет проблем с деньгами. Не обольщайтесь! Денег действительно много, но главное – они их умеют считать, а не тратить на проекты, которые будут выступать в качестве повода для «попадания в ленту новостей», хайпа и «отчета пионЭрской организации съезду», а по факту - «стиральной машины» для бюджетных средств, и гарантировано ничем не завершатся. Почему «гарантировано»? Да потому что у нас нет подготовленной дОлжным образом информации, нет техники, нет специалистов, понимающих задачу и готовых находить пути ее решения, а еще мы никак не откажемся от ура-патриотичных реляций… Пример? Пожалуйста! Читаю текст очередного научного исследования по истории кибернетики и развития ИИ в СССР. Текст написан хорошо и качественно. Только согласно этому тексту к началу 2000-х гг. у нас все было «в шоколаде»: традиции сохранили, преемственность обеспечили, даже компьютерные мощности нарастили…. А у меня вопрос – а где же все это сейчас? И почему Президент РФ на заседании 10 апреля с.г. говорит о нашем отставании в области ИИ и приоритетной задачей национального значения (!) в области ИИ обозначает создание национальной Большой Языковой Модели (http://www.kremlin.ru/events/president/news/79525?ysclid=mppadja4nb260828401) и перестройки системы подготовки кадров с учетом технологических новаций????.... Так с помощью чего и чьими руками мы будем реализовывать проекты автоматизированного описания объектов, если на создание БЯМ уходят десятилетия, на создание локальных тематических историко-ориентированных БЯМ и на формирование качественных наборов данных – годы, а подготовка кадров, в равной степени владеющих компьютерными технологиями (не на уровне написания промптов в ИИ-чат-ботах, а всерьез, т.е. с пониманием задач, их конкретизацией, выбором пути решения, созданием ТЗ, применением алгоритмов и получением качественного результата) и гуманитарными знаниями – вообще задача, результат которой для нас недостижим? Почему недостижим? Да вот, судите сами – случайно обнаруживаю тему одного из научных мероприятий – «Роль форматов архивного хранения в организации постоянного хранения электронных документов». Господа, читающие этот текст, комментарии нужны, или вам, сумевшим открыть компьютер, ввести пароль, запустить операционку и программу приложения (т.е. тот же браузер), найти вкладку ВК, зайти на мою страницу и этот пост, с уровнем владения информационными технологиями у авторов этой темы ВСЕ ПОНЯТНО и без комментариев? Заметьте, во всех ВУЗах страны учебные курсы по информатике были введены почти 30 лет назад, в школах информатике учат чуть ли не с первого класса, у нас выросло и уже своих детей имеет поколение детей, которые без гаджетов не мыслят своего существования, и объяснять им базовые вещи про форматы, ПО, устаревание, миграцию, конвертацию и организацию хранения как-то даже смешно – они нас с вами за пояс в этом вопросе заткнут… Так что же получается, что эту тему формулировал старец «ветхий деньми», который комп в глаза не видел? Плохо вериться!... Знаете, у нас даже живущие столетние соотечественники знают, что такое компьютер, поскольку именно они нам кибернетику открыли (читай выше). За рубежом впервые проблема хранения цифровой документации была поставлена в 1965 г., у нас – через 10 лет… Нам 60 лет не хватило, чтобы найти ответ на простенький вопрос из базового курса информатики? Ну почему у тех же зарубежников национальные программы сохранения цифровой информации (документов) начались четверть века назад, а мы только сейчас (в какой же раз?) задаемся этими вопросами? И потом, а как влияет формат (?) архивного хранения ЭД на организацию хранения где (?) на сервере? Думаю, автор формулировки даже отдаленно не представляет, как физически на сервере организуется информация… К тому же, мы что, zip-файлы ЭД пилить будем, если в их состав включены приложения в виде файлов, созданных в ПО, не имеющих «форматов архивного хранения»? (Почему мне опять цитата из Ильфа и Петрова вспоминается: «Пилите, Шура, пилите! Они золотые!»)…. А вообще получается какая-то странная, почти сюрриалистическая ситуация: с одной стороны, мы тут «все в ИИ», а с другой - с форматами разобраться не можем? Так может быть, отбросить амбиции, признать реальность, перестать работать на рекламу в лентах новостей, прекратить имитирование забега «задрав штаны за комсомолом» ((с) С.А.Есенин) и начать, наконец, «учиться делу настоящим образом»? (автора цитаты, надеюсь, не забыли…) Понимаю, что призыв сей – «глас вопиющего в пустыне», но так хочется надеяться на лучшее… Телеграм: t.me/ainewsline Источник: www.kremlin.ru Комментарии: |
|