О современном исследовательском процессе и применении ИИ для старинных текстов.

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


О современном исследовательском процессе и применении ИИ для старинных текстов. ?? Я мало успеваю делать постов из-за фокуса на большие проекты. Один из них - анализ всех переписей Арзамаса за XVII век и выявление генеалогических связей между жителями. Зачем? Дело в том, что переписей было три - в 1620е гг., в 1646 и 1678 гг. И уже в 1678 г. не только представлены перечни жителей, но и места их жительства - например, у конкретной церкви, которые впоследствии перестраивались, но оставались плюс-минус на своих местах. И можно разобраться и в современном их местоположении. Таким образом, гипотеза состоит в том, что если мы возьмём списки жителей и окажется, что потомки людей из 1620х гг. написаны по соседству и в 1678 г., то вероятно, что их предки жили в тех же местах. То есть через генеалогию сможем понять городское пространство и районирование и в 1620х гг. Также будет понятен и темп притока стороннего населения, и миграции внутри города. Арзамас в этом плане представляет собой отличную песочницу для отработки таких идей. Дело в том, что по нему достаточно данных по всем трём переписям.

Первый шаг в этом исследовании - переработать первоисточники, перевести рукописный текст в электронный вид. Это достаточно кропотливая работа, требующая особых знаний для чтения скорописи. Пример представляю на фото. Но в электронном виде это уже вполне себе удобные для обработки данные. См. фото 2 (скриншот того же фрагмента, но уже в публикации). Прикладываю тем, кому интересно, свою прошлогоднюю статью про жителей Арзамаса в 1620е гг. (https://vk.com/s/v1/doc/ny59PW9PnGJYfB_ZNGj6qgFZkfdpcwZiDHs811AC-IlwfBoL). Перепись 1646 года уже опубликована благодаря стараниям нижегородских архивистов во главе с Борисом Моисеевичем Пудаловым.

Следующий шаг - я перевожу сплошной текст в список, делается это просто. В прошлом каждый двор маркировался как (в) и можно прямо в Microsoft Word или другом текстовом редакторе просто заменить "(в)" на знак абзаца, получив список дворов.

Далее у нас огромный массив данных, которые требуется между собой связать. Для этого я делаю их стандартизацию. И здесь уже прекрасно отрабатывает искусственный интеллект, причем настолько хорошо, что я не могу не поделиться примерами.

Я использую платформу Gemini, в России она напрямую недоступна, но всегда опции есть. Скармливаю ей массив данных с именами людей и прошу сделать следующее - переработать их в Эксель таблицу, отдельно вывести ФИО хозяев дворов, их профессию/происхождение (при наличии), сыновей, а также других жителей двора (братьев и прочих). Причем все имена и отчества сделать современными. И ИИ перерабатывает перечень из 600+ дворов за считанные минуты. Он не только справляется с 95% имён, но и даёт дополнительные наблюдения, например, от какого прозвища произошла фамилия.

Что на входе - текст списком без удаления комментариев:

1. Якушко шапошник з детми с Максимком да Стефанком,

2. Володка Федоров сын Глотов,

3. Ефимка Дикушников з детми з Гришкою да с Емелькою,

4. Савка Онтонов,

5. Куземка Григорьев з братом с Микиткою,

6. Ортюшка Морозов,

7. Куземка Екимов сын Бочкарев,

8. Трофимка Васильев сын Жолваков // (С, л.1об.) з детми с Окинфейком да с Кирилком* [В ркп. Кирилко; написано близко к верхней кромке листа, так что, возможно, выносная М срезана]

9. Оревка Архипов сын Платов

10. Офонка Орлов

Что на выходе - смотрите скриншот таблицы. Даже имя "Оревка" было правильно переработано в Арефия.

Другой очень хороший пример. До переработки: Нехорошко Васильев сын павловец з детми с Петрункою да с Микиткою да с Лаврентейком да с-Ывашком, а у Митки сын Обрамко, // (л.9) а у Лаврентейко* [*Так в ркп.] сын Пронка, а у Ивашка сын Ивашка

После переработки:

Данные хозяина двора: Нехорош??Васильевич??-??павловец.

Сыновья: Пётр, Никита, Лаврентий, Иван.

Доп. сведения: Из г. Павлова. У сына Никиты сын Авраам ("Обрамко"). У сына Лаврентия сын Прокофий ("Пронка"). У сына Ивана сын Иван.

Прекрасно отрабатывает ИИ и профессии.

На входе: Евтюшка Васильев сын колачник с сыном с-Ысайком,

На выходе: Евтихий??Васильевич;?калачник; сын: Исайя.

Ещё мне понравилось следующее. Gemini знал, что ему дана перепись 1646 года, в одном из фрагментов было сказано, что один из сыновей жителей городского посадка Тимофей переехал из города: "Тимошка отшол с посаду, а живет за мурзою за Федором Мустофиным в деревне Кучкаеве шестой год". Как это переработал ИИ: "Сын Тимофей ушел с посада и живет за мурзою Фёдором Мустофиным в д. Кучкаеве 6-й год (с ~1640 г.)."

Требуются ли далее дополнительные усилия с моей стороны. Безусловно. Нужна валидация, где-то приходится править имена, но ИИ сокращает время многократно, давая отличную основу для работы. Ещё прикрепляю скрин выдачи ИИ, чтобы вы точно были уверены в моих словах, что это не я все готовил руками. Он дублирует отчество и фамилию, но это вручную надо убирать, Никита Антонов сын - это всё-таки Никита Антонович, ИИ страхует себя сразу двумя вариантами. Это можно улучшить через обновление технического задания для ИИ, но я не стал.

Помните, что современные технологии призваны облегчить нам жизнь, и пользуйтесь ими, это действительно классно. Всех с праздниками! ??? Если пост показался интересным, делитесь им с другими и жмите нравится. Спасибо!

P.S. для тех кому интересно, как была поставлена задача для ИИ, ниже промпт (техническое задание).

Gemini привет, ниже будет большой список владельцев дворов в городе Арзамасе в 1646 году. Каждый новый двор - отдельная строка. Сначала указан владелец. Можем, пожалуйста, переработать его в табличный вид следующим образом. Укажем имя, отчество, фамилию хозяина, его профессию (при наличии), имена сыновей (можно в одной ячейке через запятые), дополнительные сведения (например, если владельцем двора является вдова, то указать имя и отчество ее мужа, другой пример - указать соседей хозяина двора - его шуринов, зятей, братьев или любую другую информацию). Все имена и отчества заменить на современные.


Источник: vk.com

Комментарии: