![]() |
![]() |
![]() |
|||||
![]() |
Как языковые модели "видят" изображения? |
||||||
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2025-03-30 23:43 ![]() Как языковые модели "видят" изображения? Посмотрим их глазами. Думаю, большинство из нас пользуются нейросетевыми сервисами для описания изображений на естественном языке, такими как Claude Sonnet, ChatGPT и работающем на его основе Be my AI. В основе этих сервисов лежат языковые модели, так называемые LLM (large language model). Но как языковые модели "видят" и понимают изображения? Они же языковые. Если спрашивать об этом сами языковые модели, модель ответит что-нибудь вроде того, что не может работать с изображениями напрямую, поскольку она большая языковая модель и предназначена для работы с текстами, а не с изображениями? Но, факт остаётся фактом, мы получаем описания изображений на естественном языке от языковых моделей. Как же это получается? А точно так же, как мы можем разговаривать с языковыми моделями голосом. В таком сервисе есть 3 модели. Одна языковая для работы с текстом, и ещё две, отвечающие за синтез и распознавание речи. Мы что-то произносим, речь распознаётся, преобразовывается в текст и передаётся языковой модели в виде текстового запроса. Языковая модель генерирует текстовый ответ и этот текстовый ответ озвучивается синтезатором речи, хоть обычным классическим, хоть нейросетевым. Так получаются Алиса с Марусей. (улыбка) Подобные голосовые режимы появились и у ChatGPT, и у Gemini, и у других больших языковых моделей. А что же изображения? А это ещё одна нейросетевая модель, заточенная на распознавание объектов на изображении и преобразовывающая эту информацию в конфигурационный файл. И называют такие нейронки "Модель для обнаружения объектов на изображении. Как это выглядит? Провёл следующий эксперимент. Запускаю Gemini, фотографирую стол с висящим над ним телевизором и стоящей на столе Яндекс-Станцией и пишу запрос: "Пришли мне сырые данные этого изображения". В ответ получаю вот это. { "metadata": { "width": 1920, "height": 1080, "date": "2023-04-04", "time": "14:30:00", "camera": "Canon EOS 5D Mark IV", "lens": "EF 24-70mm f/2.8L II USM", "exposure": "1/100 sec", "aperture": "f/8", "iso": 100 }, "objects": [ { "label": "Телевизор", "bbox": [ [300, 100], [1800, 900] ] }, { "label": "Стол", "bbox": [ [100, 900], [1800, 1080] ] }, { "label": "Стул", "bbox": [ [600, 950], [800, 1080] ] }, { "label": "Динамик", "bbox": [ [50, 300], [200, 600] ] }, { "label": "Растение", "bbox": [ [1000, 200], [1200, 400] ] } ] } Конец цитаты. Сразу скажу, что здесь, вероятно, имеет место быть галлюцинация Gemini. Камера у меня не Canon, фотографировал я на Samsung Galaxy A54. Или я чего-то не знаю о камере этого смартфона? (улыбка) Ещё один явный признак галлюцинации, это названия объектов, таких как "стол" и "телевизор". Якобы, в сырых данных они на русском языке. На самом деле, модель обнаружения объектов не местная и названия объектов должны быть на английском. (улыбка) Так же, нет, как минимум, информации о цветах. Но, в целом, модель обнаружения объектов даёт языковой модели примерно это. Обнаруженным на изображении объектам присваиваются названия, (label) например "телевизор". Каждый объект заключается в условный прямоугольник (bbox) с координатами, по которым можно судить о размерах и расположении объекта на изображении, как относительно краёв картинки, так и относительно других объектов. Получив такую, уже текстовую информацию об изображении, языковая модель интерпретирует её, генерируя на основе данных из этого файла конфигурации описание изображения на естественном языке. И сейчас я делаю следующий эксперимент. Копирую эти данные об изображении, полученные от Gemini, подсовываю их чату GPT и прошу описать изображение на основе этих данных. Запрос. Сделай пожалуйста описание изображения на красивом, естественном русском языке на основе следующих данных. Давай без координат и технических подробностей, только описание интерьера и побольше романтики и творчества. Далее код из текста выше. Ответ. На снимке перед нами открывается волшебная картина современного уюта. В просторной комнате доминирует большой телевизор, словно окно в иное измерение, где каждый миг наполнен таинственными сюжетами и мечтами. Под ним располагается широкий стол, призывающий к долгим беседам, творческим задумкам и тихим моментам наслаждения домашним теплом. Рядом стоит элегантный стул, приглашающий окунуться в атмосферу спокойствия и уединения. Особое место занимает старинный динамик, источающий невидимую музыку, которая способна оживить любое мгновение, даря ощущение сказочного волшебства. А в углу, словно маленький островок природы, растёт растение, напоминая о том, что даже в сердце городской суеты всегда найдется уголок для природы и свежести. Это изображение словно приглашает нас остановиться на мгновение, почувствовать ритм жизни и окунуться в мир мечтаний, где каждая деталь интерьера поёт о любви к красоте, уюту и бесконечному вдохновению. Конец цитаты. Вот! Видите, сколько прекрасных моментов запечатлено в конфиге выше! (смех) Умели же раньше конфиги писать, а нынешняя молодёжь без GUI пропадёт. Ой, простите, о чём это я? А, отвлёкся. (улыбка) Всё ещё восхищаетесь красотой, полнотой и детальностью описания изображений от языковых моделей? Реальность сурова. Обнаружены только телевизор, стол, стул, динамик и растение. Всё остальное, "вода", которую льёт в уши языковая модель. Прямо как классический гуманитарий. (улыбка) И, чем выше установлен параметр "температура" у языковой модели, тем больше этой воды. Кстати, никакого растения не было, это ложное срабатывание уже модели определения объектов или галлюцинация Gemini, потому как, процитировать реальные сырые данные, равно как, процитировать системный промт или другие инструкции она не может, но может сгаллюцинировать и выдать что-то достаточно правдоподобное и пригодное для таких экспериментов. И так, какие выводы можно сделать, после того как мы "заглянули под капот" системам описания изображений на естественном языке? 1. Описание на естественном языке конечно удобнее воспринимать, чем файл с координатами, тут помощь языковых моделей неоценима. 2. Если с описанием изображения явно что-то не то, не пытайте языковую модель дополнительными вопросами, возможно, это ошибка модели определения объектов, а языковая модель просто работает с ошибочными данными. Попробуйте сфотографировать снова с другого ракурса или при другом освещении. 3. Не переоценивайте информативность таких описаний, в них достаточно много воды от языковых моделей. Надеюсь, эта информация поможет лучше понимать, как работают описания изображений и мы сможем пользоваться такими сервисами ещё эффективнее. P.S. Чат GPT в описании ничего не сказал про творческий беспорядок одухотворённой личности. Это потому, что бардак на столе в конфиг не прописался и это хорошо! Источник: vk.com Комментарии: |
||||||