Hunyuan3D-1.0: генерации 3D-моделей по тексту и изображению |
||
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2024-11-09 12:15 Hunyuan3D-1.0 (https://huggingface.co/tencent/Hunyuan3D-1) - двухэтапная система для быстрой генерации 3D-моделей по текстовым запросам или изображениям. Модель представлена в трех версиях: Hunyuan3D-1 Lite (https://huggingface.co/tencent/Hunyuan3D-1/tree/main/mvd_lite) - облегченная версия многовидовой генерации; Hunyuan3D-1 Standard (https://huggingface.co/tencent/Hunyuan3D-1/tree/main/mvd_std) - стандартная версия многовидовой генерации; Hunyuan3D-1 Sparse view reconstruction (https://huggingface.co/tencent/Hunyuan3D-1/tree/main/svrm) - модель реконструкции с ограниченным набором видов. Ключевые особенности Hunyuan3D-1.0: Генерация 3D-модели занимает всего 10 секунд для облегченной версии и 25 секунд для стандартной версии; Высокая детализация текстур и геометрии; Динамическая регулировка CFG в процессе генерации; Модуль суперразрешения повышает разрешение трехплоскостных карт для создания детализированных аспектов 3D-формы; Использование функции знаковых расстояний (SDF) позволяет преобразовать неявную репрезентацию 3D-формы в явную сетку с помощью алгоритма Marching Cubes. Пайплайн Hunyuan3D-1.0: Первый этап Hunyuan3D-1.0 основан на многовидовой диффузионной модели, которая генерирует набор RGB-изображений с разных ракурсов. Эти изображения, фиксирующие детали 3D-объекта с различных точек зрения, поступают на вход во второй этап - модель реконструкции. Модель реконструкции преобразует многовидовые изображения в готовую 3D-модель. Она обучена обрабатывать шумы и несоответствия, присущие многовидовой диффузии, и использовать информацию из входного изображения или текста для восстановления 3D-структуры. Как обучалась Hunyuan3D-1.0: Обучение многовидовой диффузионной модели и модели реконструкции осуществляется раздельно. Lite-версия многовидовой модели использует SD-2.1 в качестве основы, a standard-версия основана на SDXL. Модель реконструкции сначала обучалась на многовидовых изображениях разрешением 256x256, а затем донастраивалась на изображениях разрешением 512x512. Весь процесс обучения проводился на 64 графических процессорах A100. Оценка Hunyuan3D-1.0: Для оценки Hunyuan3D-1.0 использовались датасеты GSO и OmniObject3D с выборкой около 70 объектов. В качестве метрик использовались расстояние Чамфера (CD) и F-мера, которые являются стандартными показателями точности реконструкции 3D-форм. Standard-версия модели показала лучшие результаты по метрикам CD и F-score на обоих датасетах. Hunyuan3D-1.0 достигла оптимального баланса между качеством и скоростью по результаты сравнения с другими моделями. Инференс Hunyuan3D-1.0 доступен в CLI и с Gradio UI. Описание ключей запуска для CLI (https://github.com/tencent/Hunyuan3D-1?tab=readme-ov-file#inference)и список преднастроенных скриптов для запуска можно найти в репозитории проекта (https://github.com/tencent/Hunyuan3D-1) на Github. Позиции камеры на инференсе зафиксированы на азимуте (относительно позиции камеры на входе) Рекомендованная VRAM - 40GB, но по неподтвержденным данным изissue (https://github.com/Tencent/Hunyuan3D-1/issues/7#issue-2635595717) - запускается c 20 GB на 3090. Локальный запуск с GradioUI: # Cloning the repository Лицензирование: Tencent Hunyuan Non-Commercial License (https://github.com/tencent/Hunyuan3D-1?tab=License-1-ov-file). Модель (https://huggingface.co/tencent/Hunyuan3D-1) Техотчет (https://3d.hunyuan.tencent.com/hunyuan3d.pdf) GitHub (https://github.com/tencent/Hunyuan3D-1) Источник: github.com Комментарии: |
|