Есть такой жанр статьи — введение в научный оборот какого-то датасета

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


2025-12-06 12:52

лингвистика

«Есть такой жанр статьи — введение в научный оборот какого-то датасета. И даже специальный журнал для этого есть — Scientific Data. Это такое ответвление журнала Nature»

©О. И. Беляев

Сегодня в рубрике #новоевлингвистике мы расскажем о сентябрьской статье «The Indo-European Cognate Relationships dataset» из журнала «Scientific Data». Один из её авторов — доцент нашей кафедры Олег Игоревич Беляев!

В статье презентуется датасет IE-CoR (Indo-European Cognate Relationships): 89 лингвистов систематизировали слова-когнаты для 170 базовых понятий в 160 языках индоевропейской языковой семьи. Целью работы стало создание эталонного датасета для исследований эволюции индоевропейских языков автоматическими методами.

В отличие от более ранних попыток структурирования подобных данных, в этом исследовании список охваченных языков гораздо шире. Точность определений не уступает предыдущим исследованиям (например, проекту The Global Lexicostatistical Database, целью которого было собрание в единую базу списков Сводеша для языков мира: https://starlingdb.org/new100/main.htm): список почти исключает синонимию, а для заимствований создана отдельная структура данных. Кроме того, верификация данных проводится строже и с участием большого количества лингвистов.

«Одна из задач проекта — разработка более длинного списка, чем список Сводеша (110 слов — прим.): изначально стояла цель создать список из 200 слов, сейчас он насчитывает 170. Вторая задача — единообразное описание индоевропейских языков по этому списку. »

©О.И. Беляев

Так, данные дают возможность посмотреть, что исходя из этого происходит с классификацией индоевропейских языков. В сопоставимых филогенетических анализах по датасету IE-CoR исчезают артефактные длины ветвей, а оценки дат расхождения гораздо ближе соответствуют известным историям дивергенции.

Все данные проекта находятся в открытом доступе по ссылке https://github.com/lexibank/iecor, а для удобства использования был создан сайт https://iecor.clld.org/


Источник: iecor.clld.org

Комментарии: