ModernBERT: новое и улучшенное поколение BERT |
||
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2024-12-21 12:10 ModernBERT (https://huggingface.co/blog/modernbert) - улучшенная и переработанная на уровне архитектуры модель, основанная на достижениях BERT, которая в 2-4 раза быстрее, чем DeBERTa и RoBERTa. Модель позиционируется как преемник BERT и совместима с большинством инструментов, при этом не использует ModernBERT доступна в двух вариантах: base (https://huggingface.co/answerdotai/ModernBERT-base) с 22 слоями и 149 млн. параметров; large (https://huggingface.co/answerdotai/ModernBERT-large) с 28 слоями и 395 млн. параметров. Модель поддерживает длину контекста в 8192 токена против 512 в оригинальном BERT, это позволяет ей обрабатывать длинные документы и большие объемы текста. Архитектурные улучшения включают в себя: использование RoPE (вместо механизмов позиционного кодирования), GeGLU слои, удаление смещений, дополнительный слой нормализации после эмбедингов и чередование глобального (Flash Attention 3) и локального (Flash Attention 2) внимания. Каждые 3 слоя используют глобальное внимание с RoPE theta 160 000, а остальные слои – локальное скользящее окно с 128 токенами и RoPE theta 10 000. Для повышения эффективности ModernBERT использует метод unpadding, удаляя padding токены и обрабатывая последовательности как один пакет. ModernBERT обучалась на 2 трлн. токенов данных (веб-документы, код и научная литература) на английском языке и использует новый токенизатор BPE, модифицированную версию токенизатора OLMo, с размером словаря в 50 368 токенов. Результаты тестов показали, что ModernBERT превосходит другие модели в задачах поиска, понимания естественного языка и в задачах программирования. Например, ModernBERT-base превосходит другие модели своего размера на GLUE и показала высокие результаты на CodeSearchNet и StackQA в кодинге, а ModernBERT-large уступает только Deberta-v3-large . ModernBERT обучалась только на английском языке, поэтому ее производительность может быть ниже для других языков Лицензирование: Apache 2.0 License. Статья (https://huggingface.co/blog/modernbert) Набор моделей (https://huggingface.co/collections/answerdotai/modernbert-67627ad707a4acbf33c41deb) Arxiv (https://arxiv.org/pdf/2412.13663) GitHub (https://github.com/AnswerDotAI/ModernBERT) Источник: github.com Комментарии: |
|