![]() |
![]() |
![]() |
![]() |
Flamingo: мультимодальная модель от DeepMind |
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2022-05-11 12:27 ![]() Flamingo – мультимодальная модель DeepMind, генерирующая текстовое описание фото, видео и звуков. Модель превосходит предыдущие state-of-the-art модели в 16 задачах, а ее особенностью является возможность обучаться на нескольких примерах. Обычно для того, чтобы визуальная модель освоила новую задачу, она должна быть обучена на десятках тысяч примеров, специально размеченных для этой задачи. Если цель состоит в том, чтобы подсчитать и идентифицировать животных на изображении, нужно было бы собрать тысячи изображений животных с указанием их количества и вида. Этот процесс неэффективен, дорог и ресурсоемок, требует больших объемов размеченных данных и необходимости обучать новую модель каждый раз, когда она сталкивается с новой задачей. Flamingo – few-shot-модель, которая решает данную проблему в широком спектре мультимодальных задач. На основе нескольких примеров пар визуальных входных данных и ожидаемых текстовых ответов, модели можно задать вопрос с новым изображением или видео, а затем сгенерировать ответ. ![]() В 16 задачах c 4 парами примеров, на которых была протестирована Flamingo, модель все предыдущие state-of-the-art подходы. Во Flamingo объединяются большие языковые модели, визуальные представления (каждое из которых было предварительно обучено), и разработанные в DeepMind архитектурные компоненты между ними. Затем модель обучается на смеси дополнительных неразмеченных крупномасштабных мультимодальных данных из Интернета. Модель Flamingo превосходит существующие модели, которые точно настроены и оптимизированы для каждой задачи и используют на несколько порядков больше данных, специфичных для задачи. Flamingo позволит неспециалистам быстро и легко использовать точные модели визуального языка для решения новых задач. Установка: Полный рабочий пример с Flamingo + PaLM ??? Подробнее: https://www.deepmind.com/blog/tackling-multiple-tasks-with-a-single-visual-language-model Код: https://github.com/lucidrains/flamingo-pytorch Post Views: 32 Источник: uproger.com Комментарии: |
|