GPT-5 Pro стал лидером ARC-AGI Semi-Private Benchmark |
||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2025-10-11 12:00 Модель GPT-5 Pro заняла первое место среди всех проверенных frontier-LLM на закрытом бенчмарке ARC-AGI Semi-Private. Этот тест оценивает способность моделей к абстрактному рассуждению и решению сложных задач. Интересно, что GPT-5 Pro всё ещё уступает результатам старого o3-preview, который OpenAI тестировал ещё в декабре прошлого года. Однако тот экспериментальный вариант был почти в 50 раз дороже в вычислительных затратах и никогда не был публично выпущен. Версия o3-preview (high) достигала впечатляющих 87,5 % точности на ARC-AGI-1, но потребляла 172 раза ресурсов, чем версия (low). Из-за этого она не попала в официальный лидерборд - по правилам, тесты с compute-стоимостью выше $10 000 не публикуются. GPT-5 Pro является самой мощной из доступных и подтверждённых моделей на Semi-Private ARC-AGI. Журнал TIME опубликовал ежегодный список The Best Inventions of 2025 - подборку из 300 инновационных продуктов и идей, которые, по мнению редакции, способны изменить будущее. В список вошли достижения в самых разных областях: ИИ робототехника, медицина, экология, образование, энергетика и дизайн. Среди ключевых технологий - Claude Sonnet 4 от Anthropic, новая версия ИИ-модели, которая продемонстрировала более точные и безопасные ответы; NVIDIA DGX Spark - «настольный» AI-суперкомпьютер, делающий высокопроизводительные вычисления доступнее; UiPath Agentic Automation, объединяющая работу AI-агентов; и XReal One - компактные AR-очки, приближающие смешанную реальность к массовому использованию. TIME отметили разработки в области биотехнологий, биопечати тканей, устойчивых источников энергии и переработки отходов. Эти изобретения демонстрируют, как технологии становятся не просто инструментами, а основой будущего образа жизни. time (https://time.com/collections/best-inventions-2025/) Google Cloud показал 1001 реальный кейс использования генеративного ИИ в бизнесе Google Cloud опубликовал обновлённый список из 321 корпоративного примера применения генеративного ИИ, что в 10 раз больше, чем годом ранее. Это показывает, что AI уже массово используется в продакшене по всему миру. В банках и ритейле Commerzbank ИИ обрабатывает 2 млн клиентских чатов с 70% успешных решений, Best Buy ускоряет анализ отзывов, а Mercedes внедрил голосового ассистента на базе Gemini. Внутри компаний ИИ автоматизирует рутину: Toyota экономит более 10 000 часов в год, Manipal Hospitals сократил передачу смен с 90 до 20 минут, Equifax - 97% сотрудников хотят сохранить AI-лицензии. Wayfair ускорил настройку окружений на 55%, CME сэкономил 10,5 часов в месяц, а BMW и UPS используют цифровых двойников для моделирования логистики и производств. Подробнее (https://developers.googleblog.com/en/own-your-ai-fine-tune-gemma-3-270m-for-on-device/) Taiwan отказывается от идеи 50 на 50 с США по производству чипов Министр экономики Тайваня заявил, что TSMC сохранит свои самые передовые технологии и основное производство на острове, несмотря на предложение США сделать «50 на 50». Компания вкладывает $165 млрд в шесть фабрик в США, но строит десять на Тайване и планирует новые - там останутся ведущие технологические узлы. По словам министра, зарубежные заводы допустимы только при реальных заказах, прибыли и отсутствии рисков для безопасности. Идея «50-50» возникла из-за стремления США увеличить долю внутренних чипов после кризиса поставок 2020–2021 годов. Аналитики считают, что перенос производства в США слишком дорог и займёт годы, поэтому Вашингтон делает ставку на «friendshoring» - распределённые цепочки поставок между союзниками. times (http://taipeitimes.com/News/biz/archives/2025/10/09/2003845143) UserLM-8B от Microsoft Microsoft представила новую модель UserLM-8B, созданную для симуляции поведения пользователя в диалоге. В отличие от обычных LLM, эта модель генерирует реплики от лица человека, включая уточнения, эмоции и ошибки, как в реальном общении. Модель построена на базе Llama3.1 8B и дообучена на корпусе WildChat-1M, где она анализировала сотни тысяч реальных и синтетических диалогов. Такой подход позволяет создавать реалистичные сценарии общения для тестирования чат-ботов, обучения ассистентов и генерации синтетических данных. HF (http://huggingface.co/microsoft/UserLM-8b) Источник: huggingface.co Комментарии: |
|