o3 и o4-mini могут определять местоположение на фотографиях |
||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2025-04-20 20:46 Пользователи ChatGPT применяют новые возможности анализа изображений o3 и o4-mini для определения местоположения, изображенного на фотографиях. Модели позволяют проводить детальный визуальный анализ изображений, чтобы определить местоположение на основе визуальных признаков без метаданных. Тенденция, набирающая популярность в соцсетях, заключается в том, что пользователи загружают фотографии в ChatGPT и предлагают ИИ сыграть в игру, похожую на GeoGuessr, где он угадывает местоположение по изображению. Способность ИИ точно определять местоположение вызывает тревогу по поводу возможного злоупотребления и риска домогательства к людям через их фото в социальных сетях. techradar.com (https://www.techradar.com/computing/artificial-intelligence/you-cant-hide-from-chatgpt-new-viral-ai-challenge-can-geo-locate-you-from-almost-any-photo-we-tried-it-and-its-wild-and-worrisome) Google Gemma 3 QAT: мощный ИИ теперь на домашних GPU. Google представила Gemma 3 QAT — новое поколение открытых моделей с квантованием, которое позволяет запускать их на обычных GPU. Благодаря Quantization-Aware Training (QAT) параметры моделей сжимаются в 4 раза (до 4 бит) без серьезной потери качества. Например, 27B-версия занимает всего 14 ГБ памяти вместо 54 ГБ, что делает ее доступной для RTX 3090, 12B работает на ноутбучных GPU RTX 4060, а компактные 4B и 1B версии — даже на смартфонах. Модели совместимы с Ollama (https://ollama.com/library/gemma3), LM Studio (https://lmstudio.ai/model/gemma-3-12b-it-qat), MLX для Apple Silicon (https://huggingface.co/collections/mlx-community/gemma-3-qat-68002674cd5afc6f9022a0ae) и llama.cpp (https://huggingface.co/collections/google/gemma-3-qat-67ee61ccacbf2be4195c265b). На Hugging Face и Kaggle доступны квантованные варианты в форматах Q4_0 и int4. developers.googleblog.com (https://developers.googleblog.com/en/gemma-3-quantized-aware-trained-state-of-the-art-ai-to-consumer-gpus/) Netflix тестирует ИИ-поиск, который подбирает контент по настроению. Netflix экспериментирует с новой функцией поиска на базе OpenAI, способной понимать естественный язык. Вместо стандартных запросов по жанрам или актерам пользователи смогут искать контент, описывая свое настроение или конкретные предпочтения простыми словами, например, «фильмы для грустного вечера». Тест запущен в Австралии и Новой Зеландии для iOS-устройств, а в ближайшие месяцы дойдет до США. macrumors.com (https://www.macrumors.com/2025/04/18/netflix-ai-search-feature-openai-discovery/) IBM представила серию моделей Granite 3.3 с распознаванием речи. IBM выпустила новое поколение моделей Granite 3.3, в котором нибольший интерес представляет Granite Speech 3.3 8B — компактная система для преобразования речи в текст (ASR) и перевода (AST). Модель, построенная на базе Instruct 8B, показала повышенную точность и меньшее количество ошибок в транскрипции, обгоняя даже закрытые аналоги вроде GPT-4o и Gemini 2.0 Flash. В опенсорс опубликованы (https://huggingface.co/collections/ibm-granite/granite-33-language-models-67f65d0cca24bcbd1d3a08e3) версии 8B и 2B, которые можно дорабатывать под конкретные задачи. Granite Speech поддерживает перевод с английского на 7 языков, а для интеграции RAG-функций IBM выпустила LoRA-адаптеры в рамках проекта Granite Experiments на Hugging Face (https://huggingface.co/collections/ibm-granite/granite-experiments-6724f4c225cd6baf693dbb7a). Пока аудиоэнкодер работает только с английским, но в планах — мультиязычная поддержка, улучшение качества данных и добавление распознавания эмоций в речи. Параллельно компания уже тренирует Granite 4.0 с увеличенной скоростью и длиной контекста. ibm.com (https://www.ibm.com/new/announcements/ibm-granite-3-3-speech-recognition-refined-reasoning-rag-loras) Together AI выпустила Open Deep Research, инструмент для структурированного анализа данных в вебе. Together AI представила Open Deep Research — фреймворк для многошагового веб-поиска с открытым кодом (https://github.com/togethercomputer/open_deep_research). В отличие от обычных поисковиков, инструмент генерирует структурированные отчеты с цитатами, а не списки ссылок. Архитектура системы прозрачна: код, датасеты и модели доступны всем, а в основе — решения от Alibaba, Llama и DeepSeek. Работает инструмент в 4 этапа: планирование, сбор данных через API Tavily, проверка и формирование ответа. Готовые отчtты выводятся в HTML с графиками (Mermaid JS) и иллюстрациями, созданными в Flux. Есть даже режим подкаста — текст озвучивается моделями Cartesia’s Sonic. Together AI сделала систему модульной — разработчики могут менять модели, источники данных или добавлять форматы. together.ai (https://www.together.ai/blog/open-deep-research) Источник: www.together.ai Комментарии: |
|