ПРОРЫВ: ученые МГУ обучили нейросеть анализу научных текстов

2023-12-26 17:07

Спустя несколько дней после моего предыдущего разгромного поста, где я отметила, что за границей искусственный интеллект давно обучили читать научные тексты, а в России все это время с астрологией боролись — на сайте МГУ внезапно появилась заметка о том, что российские ученые обучили нейронную сеть читать научные тексты.

Исследователи договорились с проектом eLibrary, это такая база научных статей российских журналов, и получили датасет примерно из 400,000 научных публикаций, половина на английском и другая половина на русском. И обучили на них языковые модели BERT и RoBERTa.

Новость на первый взгляд хорошая: у нас мол-де тоже этот искусственный интеллект теперь есть, мы нисколько не отстаем, можно выдохнуть.

Однако все далеко не так радужно. Если копнуть, то окажется, что за границей первые языковые модели типа BERT на научных текстах обучали еще ... в далеком 2019 году! Тогда вышло две модели: корейская BioBERT и американская SciBERT, причем вторую обучали на полных текстах примерно одного миллиона научных статей.

Есть чем гордиться: в конце 2023 года мы наконец сумели повторить то, что американцы сделали еще в 2019, правда, с количеством текстов в два раза меньше.

Позволю себе немного просветить ученых мужей из МГУ: сегодня BERT уже немного вышел из моды, и за основу берутся более современные модели, такие как LLaMA или GPT. Например, недавно вышла модель AstroLLaMA, создатели которой — международная группа ученых из США, Китая, Индии и Польши. Они натренировали нейронную сеть на примерно 300,000 аннотаций к статьям из журналов по астрономии. Потом производительность модели сравнили с GPT-4, то есть последней версией ChatGPT. Оказалось, что она работает гораздо точнее — именно за счет своей специализированности.

Впрочем, идея обучать специализированные нейронные сети — для каждой научной области свою — далеко не новая. Я, например, предлагала делать это еще летом 2022 года: обучить современную опенсорсную версию GPT на текстах базы Sci-Hub, для каждой научной специальности свою. Но для этого понадобился бы кластер из нескольких десятков видеокарт, которого у Sci-Hub не оказалось.

Короче говоря, чтобы не позориться, обучая нейросетевые модели с технологическим отставанием в пять лет — договариваться о совместной работе надо не с eLibrary, а с Александрой Элбакян и проектом Sci-Hub. Тогда действительно может получиться что-то очень крутое, современное и важное для мировой науки.

А иначе может получиться, ну разве что копирование чужих технологий, с отставанием в несколько лет.

Дополнительно:

1. Ученые МГУ обучили нейросеть анализу научных текстов

https://www.msu.ru/science/main_themes/uchenye-mgu-obuchili-neyroset-analizu-nauchnykh-tekstov.html

2. BioBERT https://academic.oup.com/bioinformatics/article/36/4/1234/5566506

3. SciBERT https://arxiv.org/abs/1903.10676

4. AstroLLaMA https://arxiv.org/abs/2309.06126

Источник: arxiv.org

ПРОРЫВ: ученые МГУ обучили нейросеть анализу научных текстов

Комментарии: