Релиз Falcon 3

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Институт технологических инноваций Абу-Даби представил семейство моделей Falcon 3 с расширенными возможностями в областях науки, математики и программирования.

В семейство входят 5 базовых моделей:

Falcon3-1B-Base (https://huggingface.co/tiiuae/Falcon3-1B-Base)

Falcon3-3B-Base (https://huggingface.co/tiiuae/Falcon3-3B-Base)

Falcon3-Mamba-7B-Base (https://huggingface.co/tiiuae/Falcon3-Mamba-7B-Base)

Falcon3-7B-Base (https://huggingface.co/tiiuae/Falcon3-7B-Base)

Falcon3-10B-Base (https://huggingface.co/tiiuae/Falcon3-10B-Base)

Модели Falcon 3 основаны на трансформерах, совместимы с архитектурой Llama поддерживает до 32К токенов контекста (кроме 1B с контекстом 8К). Все модели используют функцию активации SwiGLU с размером словаря 131K токенов (65K для Mamba-7B версии).

Falcon3-7B-Base была масштабирована до 10 млрд. параметров путем дублирования избыточных слоев и последующего обучения на 2 трлн. токенов. Это позволило модели Falcon3-10B-Base достичь высоких результатов в задачах zero-shot и few-shot среди моделей с менее чем 13В параметров.

Для создания компактных моделей Falcon3-1B Base и Falcon3-3B Base использовались методы обрезки и дистилляции знаний на основе около 100 ГБ высококачественных данных.

Модель Falcon3-Mamba-7B-Base была усовершенствована путем обучения на дополнительных 1,5 трлн. токенов, что привело к созданию Falcon3-Mamba-7B-Base с улучшенными способностями к рассуждению и в математических задачах.

Семейство продемонстрировало высокую производительность на стандартных бенчмарках:

Falcon3-1B-Base превосходит SmolLM2-1.7B и сопоставима с gemma-2-2b;

Falcon3-3B-Base опережает Llama-3.1-8B и Minitron-4B-Base;

Falcon3-7B-Base показывает результаты, сравнимые с Qwen2.5-7B;

Falcon3-10B-Base - лучшие результаты в категории до 13 млрд. параметров.

В бенчмарках задач математики Falcon3-10B-Base достигает 22,9 на MATH-Lvl5 и 83,0 на GSM8K, а в задачах программирования набирает 73,8 на MBPP.

Инструктивные версии моделей также показывают высокие результаты, при этом Falcon3-7B-Instruct и Falcon3-10B-Instruct превосходят аналогичные модели до 13 млрд. параметров.

В репозитории на HuggingFace (https://huggingface.co/collections/tiiuae/falcon3-67605ae03578be86e4e87026) опубликованы базовые, Instruct, GPTQ-INT8, GPTO-INT4, AWQ и GGUF версии моделей Falcon3.

В январе 2025 года планируется выпуск моделей семейства Falcon3 с расширенными мультимодальными возможностями: поддержка изображений, видео и аудио, а также полный технический отчет с описанием методик.

Лицензирование: Falcon 3 TII Falcon License (https://falconllm.tii.ae/falcon-terms-and-conditions.html).

Статья (https://huggingface.co/blog/falcon3)

Набор моделей (https://huggingface.co/collections/tiiuae/falcon3-67605ae03578be86e4e87026)

Demo Falcon3 (https://huggingface.co/spaces/tiiuae/Falcon3-demo)

Demo Falcon3-Mamba-7B-Instruct (https://huggingface.co/spaces/tiiuae/Falcon3-Mamba-7B-Instruct-playground)

Сообщество в Discord (https://discord.gg/fwXpMyGc)


Источник: discord.gg

Комментарии: