Студентка НГУ создала приложение для распознавания, оцифровки и анализа классических тибетских текстов с применением машинного обучения |
||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2025-07-18 11:19 Систему автоматического распознавания и транслитерации текстов на классическом тибетском языке, ориентированную на старопечатные документы, выполненные с использованием тибетского слогового письма, восходящего к древнеиндийскому письму брахми, создала работающая в ИВМиМГ СО РАН студентка направления «Фундаментальная и прикладная лингвистика» Гуманитарного института Новосибирского государственного университета Анна Мурашкина. В своем исследовании она использовала изображения страниц классических тибетских текстов XVIII-XX веков из архива Центра восточных рукописей и ксилографов Института монголоведения, буддологии и тибетологии СО РАН. — Актуальность моей работы обусловлена необходимостью сохранения и цифровой доступности тибетского культурного наследия, представленного в виде множества исторических рукописей. Старопечатные документы, рукописи и ксилографы содержат уникальные сведения о философии, религии, медицине, истории и искусстве, играя ключевую роль в изучении культурных традиций региона. Эти знания передаются в Тибете из поколения в поколение. Однако со временем, под воздействием природных и антропогенных факторов, бумажные носители подвержены физическому разрушению, что ведет к утрате бесценной информации и ограничивает доступ к этим уникальным материалам. В настоящее время в Тибетском фонде Института монголоведения, буддологии и тибетологии СО РАН хранится до 70 тысяч единиц хроники, которые рискуют быть утерянными. Один из наиболее надежных способов сохранения и систематизации исторических документов — их оцифровка, — рассказала Анна Мурашкина. Молодая исследовательница поставила перед собой задачу — с применением машинного обучения построить модель, которая распознавала бы символы тибетского алфавита с изображений, переводила в машиночитаемый вид и при этом показывала бы большую точность, чем уже существующие открытые решения, в том числе Tesseract. — Для этого я вручную выполнила лингвистическую разметку строк тибетского текста из фонда ИМБТ СО РАН. Затем с учетом специфики тибетской графики разработала систему оценки качества оптического распознавания символов (OCR). Далее я провела сравнение существующих архитектур и выбрала модель сверточной нейросети, которая потребовала дообучения, — пояснила Анна Мурашкина. Дообучение модели она реализовала на размеченном корпусе документов, и в результате был создан полный модульный алгоритм OCR, включающий этапы предобработки, сегментации, распознавания и постобработки. — Для меня ценность проекта заключается в том, что я помогла оцифровать архив, в котором хранится история – документы, созданные людьми прошлого, которые хотели передать свои знания будущим поколениям. Я рада, что помогаю перенести эти знания сквозь время, сохранить их и сделать доступными для более широкой аудитории. Мою разработку будут использовать сотрудники Института монголоведения, буддологии и тибетологии СО РАН. Также обсуждается возможность сотрудничества с Буддистским центром цифровых технологий, который проводит оцифровку архивов храмов и монастырей. В сотрудничестве с этой организацией мы расширим возможности оцифровки тибетских рукописей с помощью открытых ресурсов, разрабатываемых совместно с исследователями организаций разных стран, чтобы впоследствии каждый человек мог прикоснуться к этому бесценному наследию и ознакомиться с документами, которые находятся в храмах и хранилищах архивов, — сказала Анна Мурашкина. Источник: vk.com Комментарии: |
|