Новая ИИ-модель DeepSeek сможет работать на одном GPU |
||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2025-06-03 11:45 Китайская ИИ-лаборатория DeepSeek обновила «рассуждающую» ИИ-модель R1. Ее «дистиллированная» версия способна работать на одной видеокарте. DeepSeek-R1-0528-Qwen3-8B создана на базе Qwen3-8B, которую Alibaba презентовала в мае. Согласно заявлению компании, она показала результаты лучше Gemini 2.5 Flash от Google в AIME 2025 — сборнике сложных математических вопросов. «Дистиллированная» версия — упрощенный и ускоренный вариант большой модели машинного обучения, полученный с помощью метода дистилляции знаний. Подобные нейросети чаще всего не так производительны, но гораздо менее требовательны к вычислениям. Согласно данным NodeShift, для работы Qwen3-8B требуется графический процессор с 40-80 Гб видеопамяти. Она может быть запущена на одной видеокарте Nvidia H100. DeepSeek использовала обновленную версию R1 и Qwen3-8B для обучения и настройки DeepSeek-R1-0528-Qwen3-8B. Новая вариант основной нейросети R1 имеет незначительные обновления, утверждает компания. Она доступна на платформе Hugging Face. Разработчик с ником xlr8harder обратил внимание, что модель менее охотно дискуссирует на спорные темы, особенно связанные с китайским правительством.
В одном из примеров модель отказалась приводить аргументы за нарушение прав человека в лагерях для интернированных в Синьцзяне. Она признала сам факт, но избежала прямой критики китайского правительства.
Напомним, в апреле DeepSeek выложила в открытый доступ новую ориентированную на математику ИИ-модель Prover. Нашли ошибку в тексте? Выделите ее и нажмите CTRL+ENTER Рассылки ForkLog: держите руку на пульсе биткоин-индустрии! Источник: forklog.com Комментарии: |
|