Новые разработки команды FAIR в области ИИ |
||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2024-12-19 19:01 Подразделение FAIR компании Марка Цукерберга представила новые исследовательские результаты, направленные на развитие исследований в ИИ, а их открытая публикация должна способствовать ускорению общего прогресса: Motivo - базовая модель для управления виртуальными воплощенными агентами. Модель обучена с применением нового алгоритма, который позволяет представлять состояния, движения и вознаграждения в едином латентном пространстве. Motivo демонстрирует высокую производительность в сравнении со специализированными методами, превосходит современные подходы неконтролируемого обучения с подкреплением и проявляет устойчивость к изменениям окружающей среды. Paper (https://ai.meta.com/research/publications/zero-shot-whole-body-humanoid-control-via-behavioral-foundation-models/) ?Demo (https://metamotivo.metademolab.com/)?Github (https://github.com/facebookresearch/metamotivo) Video Seal - система для нанесения водяных знаков на видео. Метод добавляет незаметные водяные знаки, устойчивые к редактированию и сжатию, чтобы маркировать и отслеживать происхождение сгенерированных видеоматериалов. Video Seal является развитием предыдущей разработки Audio Seal. Paper (https://ai.meta.com/research/publications/video-seal-open-and-efficient-video-watermarking/) ?Demo (https://aidemos.meta.com/videoseal)?Github (https://github.com/facebookresearch/videoseal) Flow Matching - генеративная парадигма для множества модальностей. Метод, который постепенно заменяет классическую диффузию и повышает производительность и эффективность обобщения при создании изображений, видео, аудио и 3D-структур. Он уже применяется в продуктах Movie Gen, Audiobox и Melody Flow, а также в Stable-Diffusion-3, Flux, Fold-Flow и Physical Intelligence Pi_0. Paper (https://ai.meta.com/research/publications/flow-matching-guide-and-code/)?Github (https://github.com/facebookresearch/flow_matching) Explore Theory-of-Mind - техника генерации данных для обучения моделей теории разума. Этот подход позволяет создавать разнообразные и сложные сценарии для обучения LLM. Экспериментальное применение Explore Theory-of-Mind с Llama-3.1 7B привело к увеличению точности на 27 пунктов на тесте ToMi. Paper (https://ai.meta.com/research/publications/explore-theory-of-mind-program-guided-adversarial-data-generation-for-theory-of-mind-reasoning/) ?Github (https://github.com/facebookresearch/ExploreToM) ?Dataset (https://huggingface.co/datasets/facebook/ExploreToM) Large Concept Model (LCM) - метод обучения языковых моделей, который предсказывает не следующий токен, а следующую концепцию. Основная идея LCM заключается в том, чтобы отделить рассуждения от представления языка, и она вдохновлена тем, как люди могут планировать высокоуровневые мысли для общения. LCM значительно отличается от типичного LLM. Вместо того чтобы предсказывать следующую лексему, LCM обучается предсказывать следующую концепцию или идею высокого уровня, представленную полным предложением в мультимодальном и многоязычном пространстве эмбедингов. Paper (https://ai.meta.com/research/publications/large-concept-models-language-modeling-in-a-sentence-representation-space/) ?Github (https://github.com/facebookresearch/large_concept_model) Dynamic Byte Latent Transformer - иерархическая модель, работающая с байтами напрямую без токенизации. DBLT превосходит модели на основе токенизаторов по надежности, в среднем на 7 пунктов, и отлично справляется с обработкой longtail и rare sequences of unseen symbols. Paper (https://ai.meta.com/research/publications/byte-latent-transformer-patches-scale-better-than-tokens/) ?Github (https://github.com/facebookresearch/blt) Memory Layers – метод масштабирования слоев памяти, повышающий фактологичность моделей. Метод, который помогает эффективно хранить и извлекать информацию через специальные "слои памяти" без значительного роста вычислительных затрат. Он позволяет моделям работать лучше и точнее на задачах, связанных с фактами. Paper (https://ai.meta.com/research/publications/memory-layers-at-scale/) ?Github (https://github.com/facebookresearch/memory) EvalGym - библиотека для оценки text-to-image моделей. Она позволяет легко использовать воспроизводимые автоматические оценки T2I-моделей и поддерживает настройку с использованием пользовательских метрик, датасетов и визуализаций. Paper (https://ai.meta.com/research/publications/evalgim-a-library-for-evaluating-generative-image-models/)?Github (https://github.com/facebookresearch/EvalGIM/tree/main) CLIP 1.2 - улучшенная версия vision-language энкодера. Paper (https://ai.meta.com/research/publications/meta-clip-12/) ?Github (https://github.com/facebookresearch/MetaCLIP) ?Dataset (https://huggingface.co/datasets/activebus/Altogether-FT) ?Model (https://dl.fbaipublicfiles.com/MMPT/metaclip/h14_v1.2_altogether.pt) Источник: dl.fbaipublicfiles.com Комментарии: |
|