GeoVista: модель для визуальной геолокации |
||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2025-12-13 11:47 Tencent в коллаборации с ведущими китайскими университетами выложила (https://ekonwang.github.io/geo-vista/) в открытый доступ модель GeoVista, которая предлагает интересный подход к решению проблемы "где сделано это фото" - она делает ставку на активный майнинг данных из внешних источников. Система на архитектуре Qwen2.5-VL-7B-Instruct использует 2 инструмента: функцию зума и поисковый движок, подтягивающий до 10 релевантных ссылок с платформ Tripadvisor, Pinterest и Wikipedia и социальных сетей. Модель самостоятельно решает, в какой момент задействовать тот или иной инструмент, что, по сути, имитирует ход мыслей человека-расследователя. GeoVista обучалась сначала (SFT) на 2 тыс. примерах, а потом (RL) уже на 12 тыс. примерах. Для балансировки RL собрали кастомную систему вознаграждений, привязанную к географической точности: правильный ответ на уровне города ценится выше, чем попадание в провинцию или страну. Готовую модель прогнали на собственном бенчмарке GeoBench (https://huggingface.co/datasets/LibraTree/GeoVistaBench). На нем GeoVista показала 92,6% точности при определении страны, 79,6% региона и 72,7% - конкретного города. Легче всего модели даются панорамы (79,5% точности на уровне города) и стандартные фото (72,2%), а вот спутниковые снимки остаются ахиллесовой пятой, здесь показатель падает до 44,9%. Если сравнивать с закрытыми моделями, то GeoVista дышит в спину Gemini 2.5 Flash (73,3% на уровне города) и заметно обходит GPT-5, который показал лишь 67,1%. Лидером пока остается Gemini 2.5 Pro с результатом 78,98%, а вот другие открытые модели (Mini-o3-7B), безнадежно отстают с показателем 11,3%. В метриках физического расстояния разрыв с топами ощутим сильнее. 52,8% предсказаний GeoVista попали в радиус 3 километров от реальной точки, при этом медианное отклонение составило 2,35 километра. Для сравнения, Gemini 2.5 Pro укладывается в 3-километровую зону в 64,45% случаев с медианным отклонением всего в 800 метров. Даже GPT-5, проигравший в общей точности, показал медиану в 1,86 км. Помимо модели, команда опубликовала и сам датасет (https://huggingface.co/datasets/LibraTree/GeoVistaBench) GeoBench: 1142 изображения из 66 стран и 108 городов. В выборку вошли 512 обычных фотографий, 512 панорам и 108 спутниковых снимков. Главное отличие этого набора от аналогов вроде OpenStreetView-5M - жесткая фильтрация. Разработчики намеренно удалили "нелокализуемые" изображения: крупные планы еды или типичные пейзажи без примет и слишком очевидные достопримечательности, чтобы исключить легкие победы для алгоритмов. Лицензирование: Apache 2.0 License. Страница проекта (https://ekonwang.github.io/geo-vista/) Набор моделей (https://huggingface.co/collections/LibraTree/geovista) Arxiv (https://arxiv.org/pdf/2511.15705) Датасет (https://huggingface.co/datasets/LibraTree/GeoVistaBench) Github (https://github.com/ekonwang/GeoVista) Источник: github.com Комментарии: |
|