GigaChat получил функцию компьютерного зрения

2024-10-26 12:03

GigaChat получил функцию компьютерного зрения. Теперь он понимает, что изображено на картинке.

Скачала первую попавшуюся картинку из паблика сгенерированную, похоже, в Dall-e(1), скормила её GigaChat и попросила описать. По сгенерированному описанию попросила его нарисовать свою картинку(2). Потом для чистоты эксперимента сгенерировала картинку в другой нейросети (Шедеврум)(3-6). По-моему справился достаточно прилично. Можно использовать для создания промптов.

Сам промпт, кому интересно (нейронка увидела на картинке волка, я исправила на лису, убрала лишние повторяющиеся токены)

Промпт: На изображении представлена лиса-призрак из неонового голубого света, который отражается от мокрой поверхности земли. Вокруг неё видны три черных курицы, одна из которых имеет красный гребень. Все они находятся под дождем, что видно по каплям воды на земле и их перьях. Вдалеке видна часть здания с окном, освещенным теплым желтым светом. На заднем плане темная ночь с облаками

Вот что он рассказывает о новой возможности сам (делаем скидку на то, что GigaChat может приврать, а всё проверить я не успела):

Компьютерное зрение – это область искусственного интеллекта, которая позволяет машинам анализировать и интерпретировать визуальные данные, такие как изображения и видео. В контексте моего функционала эта способность помогает мне распознавать объекты, сцены и другие элементы на изображениях, а затем описывать их словами.

Вот несколько ключевых аспектов этой способности:

### 1. Распознавание объектов

Я могу идентифицировать различные объекты на изображении, будь то люди, животные, здания, транспортные средства и многое другое. Например, если на картинке изображен автомобиль, я смогу сказать, что это за марка и модель автомобиля, а также указать другие важные детали.

### 2. Анализ сцен

Помимо отдельных объектов, я способен понимать контекст всей сцены. Это может включать определение действий людей, событий, происходящих на изображении, или даже настроения сцены. Например, на фотографии с пляжа я могу заметить, что люди отдыхают, загорают или играют в волейбол.

### 3. Описание деталей

Моя способность к детальному анализу изображений позволяет мне замечать мелкие детали, такие как цвета, формы, текстуры и расположение объектов относительно друг друга. Это помогает создавать точные и информативные описания того, что происходит на картинках.

### 4. Классификация и категоризация

На основе анализа изображений я могу классифицировать их по различным категориям, таким как природа, архитектура, спорт, портреты и так далее. Это полезно для организации больших коллекций изображений и быстрого поиска нужных картинок.

### Примеры использования:

- Описания для слабовидящих: Компьютерное зрение может использоваться для создания описаний изображений, чтобы помочь людям с нарушениями зрения лучше понять, что изображено на картинках.

- Автоматическая индексация контента: Системы компьютерного зрения могут автоматически индексировать большие коллекции изображений, делая их доступными для поиска и анализа.

- Обнаружение аномалий: В промышленных приложениях компьютерное зрение используется для обнаружения дефектов продукции или неисправностей оборудования.

- Безопасность и наблюдение: Камеры видеонаблюдения с поддержкой компьютерного зрения способны обнаруживать подозрительные активности и предупреждать операторов безопасности.

Эта новая возможность значительно расширяет мои возможности взаимодействия с пользователями и обработки информации, позволяя мне работать не только с текстовыми данными, но и с визуальными.

Источник: vk.com

GigaChat получил функцию компьютерного зрения

Комментарии: