![]() |
![]() |
![]() |
![]() |
О современном исследовательском процессе и применении ИИ для старинных текстов. |
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2025-05-08 17:58 ![]() ![]() ![]() ![]() О современном исследовательском процессе и применении ИИ для старинных текстов. ?? Я мало успеваю делать постов из-за фокуса на большие проекты. Один из них - анализ всех переписей Арзамаса за XVII век и выявление генеалогических связей между жителями. Зачем? Дело в том, что переписей было три - в 1620е гг., в 1646 и 1678 гг. И уже в 1678 г. не только представлены перечни жителей, но и места их жительства - например, у конкретной церкви, которые впоследствии перестраивались, но оставались плюс-минус на своих местах. И можно разобраться и в современном их местоположении. Таким образом, гипотеза состоит в том, что если мы возьмём списки жителей и окажется, что потомки людей из 1620х гг. написаны по соседству и в 1678 г., то вероятно, что их предки жили в тех же местах. То есть через генеалогию сможем понять городское пространство и районирование и в 1620х гг. Также будет понятен и темп притока стороннего населения, и миграции внутри города. Арзамас в этом плане представляет собой отличную песочницу для отработки таких идей. Дело в том, что по нему достаточно данных по всем трём переписям. Первый шаг в этом исследовании - переработать первоисточники, перевести рукописный текст в электронный вид. Это достаточно кропотливая работа, требующая особых знаний для чтения скорописи. Пример представляю на фото. Но в электронном виде это уже вполне себе удобные для обработки данные. См. фото 2 (скриншот того же фрагмента, но уже в публикации). Прикладываю тем, кому интересно, свою прошлогоднюю статью про жителей Арзамаса в 1620е гг. (https://vk.com/s/v1/doc/ny59PW9PnGJYfB_ZNGj6qgFZkfdpcwZiDHs811AC-IlwfBoL). Перепись 1646 года уже опубликована благодаря стараниям нижегородских архивистов во главе с Борисом Моисеевичем Пудаловым. Следующий шаг - я перевожу сплошной текст в список, делается это просто. В прошлом каждый двор маркировался как (в) и можно прямо в Microsoft Word или другом текстовом редакторе просто заменить "(в)" на знак абзаца, получив список дворов. Далее у нас огромный массив данных, которые требуется между собой связать. Для этого я делаю их стандартизацию. И здесь уже прекрасно отрабатывает искусственный интеллект, причем настолько хорошо, что я не могу не поделиться примерами. Я использую платформу Gemini, в России она напрямую недоступна, но всегда опции есть. Скармливаю ей массив данных с именами людей и прошу сделать следующее - переработать их в Эксель таблицу, отдельно вывести ФИО хозяев дворов, их профессию/происхождение (при наличии), сыновей, а также других жителей двора (братьев и прочих). Причем все имена и отчества сделать современными. И ИИ перерабатывает перечень из 600+ дворов за считанные минуты. Он не только справляется с 95% имён, но и даёт дополнительные наблюдения, например, от какого прозвища произошла фамилия. Что на входе - текст списком без удаления комментариев: 1. Якушко шапошник з детми с Максимком да Стефанком, 2. Володка Федоров сын Глотов, 3. Ефимка Дикушников з детми з Гришкою да с Емелькою, 4. Савка Онтонов, 5. Куземка Григорьев з братом с Микиткою, 6. Ортюшка Морозов, 7. Куземка Екимов сын Бочкарев, 8. Трофимка Васильев сын Жолваков // (С, л.1об.) з детми с Окинфейком да с Кирилком* [В ркп. Кирилко; написано близко к верхней кромке листа, так что, возможно, выносная М срезана] 9. Оревка Архипов сын Платов 10. Офонка Орлов Что на выходе - смотрите скриншот таблицы. Даже имя "Оревка" было правильно переработано в Арефия. Другой очень хороший пример. До переработки: Нехорошко Васильев сын павловец з детми с Петрункою да с Микиткою да с Лаврентейком да с-Ывашком, а у Митки сын Обрамко, // (л.9) а у Лаврентейко* [*Так в ркп.] сын Пронка, а у Ивашка сын Ивашка После переработки: Данные хозяина двора: Нехорош??Васильевич??-??павловец. Сыновья: Пётр, Никита, Лаврентий, Иван. Доп. сведения: Из г. Павлова. У сына Никиты сын Авраам ("Обрамко"). У сына Лаврентия сын Прокофий ("Пронка"). У сына Ивана сын Иван. Прекрасно отрабатывает ИИ и профессии. На входе: Евтюшка Васильев сын колачник с сыном с-Ысайком, На выходе: Евтихий??Васильевич;?калачник; сын: Исайя. Ещё мне понравилось следующее. Gemini знал, что ему дана перепись 1646 года, в одном из фрагментов было сказано, что один из сыновей жителей городского посадка Тимофей переехал из города: "Тимошка отшол с посаду, а живет за мурзою за Федором Мустофиным в деревне Кучкаеве шестой год". Как это переработал ИИ: "Сын Тимофей ушел с посада и живет за мурзою Фёдором Мустофиным в д. Кучкаеве 6-й год (с ~1640 г.)." Требуются ли далее дополнительные усилия с моей стороны. Безусловно. Нужна валидация, где-то приходится править имена, но ИИ сокращает время многократно, давая отличную основу для работы. Ещё прикрепляю скрин выдачи ИИ, чтобы вы точно были уверены в моих словах, что это не я все готовил руками. Он дублирует отчество и фамилию, но это вручную надо убирать, Никита Антонов сын - это всё-таки Никита Антонович, ИИ страхует себя сразу двумя вариантами. Это можно улучшить через обновление технического задания для ИИ, но я не стал. Помните, что современные технологии призваны облегчить нам жизнь, и пользуйтесь ими, это действительно классно. Всех с праздниками! ??? Если пост показался интересным, делитесь им с другими и жмите нравится. Спасибо! P.S. для тех кому интересно, как была поставлена задача для ИИ, ниже промпт (техническое задание). Gemini привет, ниже будет большой список владельцев дворов в городе Арзамасе в 1646 году. Каждый новый двор - отдельная строка. Сначала указан владелец. Можем, пожалуйста, переработать его в табличный вид следующим образом. Укажем имя, отчество, фамилию хозяина, его профессию (при наличии), имена сыновей (можно в одной ячейке через запятые), дополнительные сведения (например, если владельцем двора является вдова, то указать имя и отчество ее мужа, другой пример - указать соседей хозяина двора - его шуринов, зятей, братьев или любую другую информацию). Все имена и отчества заменить на современные. Источник: vk.com Комментарии: |
|