ModernBERT: новое и улучшенное поколение BERT

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


ModernBERT (https://huggingface.co/blog/modernbert) - улучшенная и переработанная на уровне архитектуры модель, основанная на достижениях BERT, которая в 2-4 раза быстрее, чем DeBERTa и RoBERTa.

Модель позиционируется как преемник BERT и совместима с большинством инструментов, при этом не использует token type IDs, что упрощает ее использование.

ModernBERT доступна в двух вариантах:

base (https://huggingface.co/answerdotai/ModernBERT-base) с 22 слоями и 149 млн. параметров;

large (https://huggingface.co/answerdotai/ModernBERT-large) с 28 слоями и 395 млн. параметров.

Модель поддерживает длину контекста в 8192 токена против 512 в оригинальном BERT, это позволяет ей обрабатывать длинные документы и большие объемы текста.

Архитектурные улучшения включают в себя: использование RoPE (вместо механизмов позиционного кодирования), GeGLU слои, удаление смещений, дополнительный слой нормализации после эмбедингов и чередование глобального (Flash Attention 3) и локального (Flash Attention 2) внимания.

Каждые 3 слоя используют глобальное внимание с RoPE theta 160 000, а остальные слои – локальное скользящее окно с 128 токенами и RoPE theta 10 000. Для повышения эффективности ModernBERT использует метод unpadding, удаляя padding токены и обрабатывая последовательности как один пакет.

ModernBERT обучалась на 2 трлн. токенов данных (веб-документы, код и научная литература) на английском языке и использует новый токенизатор BPE, модифицированную версию токенизатора OLMo, с размером словаря в 50 368 токенов.

Результаты тестов показали, что ModernBERT превосходит другие модели в задачах поиска, понимания естественного языка и в задачах программирования.

Например, ModernBERT-base превосходит другие модели своего размера на GLUE и показала высокие результаты на CodeSearchNet и StackQA в кодинге, а ModernBERT-large уступает только Deberta-v3-large .

ModernBERT обучалась только на английском языке, поэтому ее производительность может быть ниже для других языков

Лицензирование: Apache 2.0 License.

Статья (https://huggingface.co/blog/modernbert)

Набор моделей (https://huggingface.co/collections/answerdotai/modernbert-67627ad707a4acbf33c41deb)

Arxiv (https://arxiv.org/pdf/2412.13663)

GitHub (https://github.com/AnswerDotAI/ModernBERT)


Источник: github.com

Комментарии: