СЕМАНТИЧЕСКИЙ АНАЛИЗ ПАРАЛЛЕЛЬНЫХ КОРПУСОВ

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости



С развитием обработки живых языков многие лингвистические задачи могут быть выполнены с большей эффективностью. Лемматизация или глоссировка сейчас могут производиться при помощи одной строчки кода, так же, как и более общий текстовый анализ или создание корпусов. Однако большинство операций наиболее эффективно проявляют себя только в работе с современными языками, богатыми оцифрованным материалом, поэтому процент точности выполнения тех или иных операций над текстом гораздо выше. Языки, у которых, относительно других языков, мало текстового материала, или же вымершие языки, у которых текстовый материал ограничен по естественным причинам, будут называться нами «low-resource languages». В рамках этой работы мы сделаем обзор существующих методов по векторизации low-resource languages для двуязычного или многоязычного сравнения текстовых корпусов на этих языках.

Семантический анализ корпусов на разных языках позволяет нам углубиться в понимание смысла слов в текстах для языков, на которых уже не говорят. Чем ближе текст корпуса по содержанию к тому же или схожему по смыслу тексту на другом языке, тем больше мы будем понимать общую морфологию, мифопоэтику праязыка либо анализировать расхождения языков в тех же аспектах.

Концепция семантического анализа заключается главным образом в формировании векторных величин для слов за рамками исходного языка и языка, с которым они сравниваются. Для достижения такой задачи необходима модель, полностью покрывающая корпус текстов на разных языках.

Для векторизации существует несколько готовых моделей искусственных нейронных сетей, но в рамках этой работы мы поведем речь о Word2vec. Основная их задача — дистрибуция слов по их семантике. Рассчитывается это представление путем положения слова в предложении и окружением его другими лексемами или «токенами». Изначально эта модель обучалась на английском языке с корпусом, в котором было около 0,3 миллиарда токенов. Следовательно, для получения наиболее точной модели требуется очень большой объем текста, что и является недостатком low-resource languages.

Word2vec предоставляет ряд натренированных моделей, в том числе и для low-resource languages. Попробуем провести эксперимент по сравнению эффективности готовых моделей Word2vec на примере эпической поэмы «Илиада» Гомера; произведение было проанализировано на древнегреческом (модель объемом 45742 слов), новогреческом (1183194 слов) и английском (291392 слов, и это не самая большая модель). Ввиду технических проблем проверить самую большую модель для английского языка не представилось возможным, поэтому результат для данного языка не актуален. Точность модели для текста определялась по процентному отношению не пустых векторных значений, то есть по словам, которые есть и в модели, и в тексте. Модели проверялись и на предобработанном, и на «сыром» тексте. В первом случае из текста были удалены часто встречающиеся слова или «стоп-слова»; во втором же они остались, что несомненно повлияло на объем текста, однако ключевые лексемы при этом остались без изменений (Таблица 1).

Полученные результаты можно трактовать следующим образом: древнегреческая модель значительно уступает новогреческой, так как объем словаря древнегреческого языка намного меньше. Результат же на предобработанном тексте неоднозначный. Вероятно, отчистка «стоп-слов», которые могут быть включены в словари моделей, повлияла на общий процент ячеек с векторными значениями. Ситуация столь резких различий между итоговыми процентами английской модели, возможно, объясняются теми же причинами.

Данный эксперимент доказывает необходимость создания таких векторных моделей, которые бы полностью покрывали исходный текст. На данный момент существуют методы обработки low-resource languages, разработанные на базе языка Python: это некие дополнения для word2vec, которые называются «OddOneOut» и «Topk». По заявлению создателей они разработаны специально для работы с маленькими корпусами текстов. Обучение происходило на базе пакета для Python «CLTK» или «Classical Language ToolKit», в котором хранятся корпусы текстов для 18 low-resource languages. В данном случае важно провести дополнительные эксперименты с корпусами текстов, не входящих в пакет «CLTK». Так, еще не встречались цифровые корпусы текстов для авестийского или хеттского языка.

Таким образом, для реализации концепции семантического анализа важно точное и полноценное векторное представления текста. Чем больше точных моделей для разных языков, тем качественнее можно будет провести анализ текста на основе этих моделей. Наибольший интерес представляет разработка и последующий анализ векторных моделей для древних языков.

____________________

Литература:

1. Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. 2013. Efficient estimation of word

representations in vector space. arXiv preprint

arXiv:1301.3781.

2. Kyle P. Johnson. 2014. CLTK: The Classical Language

Toolkit. URL: https://github.com/cltk/cltk.

3. Nathan Stringham, Mike Izbicki. Evaluating Word Embeddings on Low-Resource Languages. In Proceedings of the First Workshop on Evaluation and Comparison of NLP Systems // Association for Computational Linguistics. 2020. P. 176–186

4. GREENHILL, SIMON J., RUSSELL D. GRAY. Austronesian language phylogenies: Myths and

misconceptions about Bayesian computational methods. Austronesian historical linguistics

and culture history: a festschrift for Robert Blust, ed. by Alexander Adelaar and Andrew

Pawley. // Canberra: Pacific Linguistics. 2009. P. 375-397.


Источник: github.com

Комментарии: