Переосмысление того, как мы измеряем интеллект ИИ |
||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2025-08-06 11:26 Game Arena — это новая платформа с открытым исходным кодом для тщательной оценки моделей искусственного интеллекта. Он позволяет сравнивать передовые системы в условиях с четкими условиями победы. Текущие бенчмарки ИИ изо всех сил пытаются идти в ногу с современными моделями. Какими бы полезными они ни были для измерения производительности модели при выполнении конкретных задач, может быть трудно понять, действительно ли модели, обученные на интернет-данных, решают проблемы или просто запоминают ответы, которые они уже видели. По мере того, как модели приближаются к 100% на определенных бенчмарках, они также становятся менее эффективными для выявления значимых различий в производительности. Мы продолжаем инвестировать в новые и более сложные контрольные показатели, но на пути к общему интеллекту нам необходимо продолжать искать новые способы оценки. Недавний сдвиг в сторону динамического, оцениваемого человеком тестирования решает эти проблемы запоминания и насыщения, но, в свою очередь, создает новые трудности, проистекающие из присущей человеческим предпочтениям субъективности. Несмотря на то, что мы продолжаем развиваться и следовать текущим эталонным показателям ИИ, мы также постоянно ищем новые подходы к оценке моделей. Вот почему сегодня мы представляем Kaggle Game Arena — новую общедоступную платформу для сравнительного анализа ИИ, где модели ИИ соревнуются друг с другом в стратегических играх, обеспечивая поддающуюся проверке и динамическую оценку их возможностей. Почему игры являются значимым ориентиром для оценки Игры подают четкий, недвусмысленный сигнал об успехе. Их структурированный характер и измеримые результаты делают их идеальной испытательной площадкой для оценки моделей и агентов. Они заставляют моделей демонстрировать множество навыков, включая стратегическое мышление, долгосрочное планирование и динамическую адаптацию против умного противника, обеспечивая надежный сигнал их общего интеллекта для решения проблем. Ценность игр в качестве эталона еще больше повышается за счет их масштабируемости — сложность увеличивается с интеллектом противника — и нашей способности проверять и визуализировать «рассуждения» модели, которые позволяют заглянуть в ее стратегический мыслительный процесс. Специализированные движки, такие как Stockfish, и универсальные модели искусственного интеллекта, такие как AlphaZero, могут играть в игры на сверхчеловеческом уровне в течение многих лет и без сомнения превзойдут любую пограничную модель. Сегодняшние большие языковые модели, однако, не созданы для специализации на каких-либо конкретных играх, и в результате они не играют в них так же хорошо. В то время как ближайшая задача для моделей состоит в том, чтобы сократить этот разрыв, в долгосрочной перспективе мы надеемся, что они достигнут уровня игры, превышающего то, что возможно в настоящее время. И с бесконечно растущим набором новых сред мы можем продолжать бросать им вызов еще больше. Как Game Arena способствует честной и открытой оценке Game Arena построена на Kaggle и обеспечивает справедливую стандартизированную среду для оценки моделей. Для обеспечения прозрачности игровые жгуты — фреймворки, которые подключают каждую модель ИИ к игровой среде и обеспечивают соблюдение правил, — а также игровые среды имеют открытый исходный код. Итоговые рейтинги определяются строгой системой «играй все», где большое количество совпадений между каждой парой моделей обеспечивает статистически надежный результат. Google DeepMind уже давно использует игры в качестве эталона, от Atari до AlphaGo и AlphaStar, для демонстрации сложных возможностей искусственного интеллекта. Тестируя эти модели на конкурентной арене, мы можем установить четкую основу для их стратегического обоснования и отслеживать прогресс. Цель состоит в том, чтобы создать постоянно расширяющийся эталон, сложность которого возрастает по мере того, как модели сталкиваются с более жесткой конкуренцией. Со временем это может привести к появлению новых стратегий, подобных знаменитому и креативному «Ходу 37» от AlphaGo, который сбил с толку экспертов. Способность планировать, адаптироваться и рассуждать под давлением в игре аналогична мышлению, необходимому для решения сложных задач в науке и бизнесе. Как можно посмотреть шахматные выставочные матчи 5 августа в 10:30 утра по тихоокеанскому времени присоединяйтесь к нам на специальной шахматной выставке, где восемь моделей фронтира сойдутся в противостоянии на выбывание. Для этой выставки мы отобрали образец из спичек. Это мероприятие, организованное лучшими шахматными экспертами мира, является премьерной демонстрацией методологии Game Arena. В то время как веселые показательные матчи проходят в формате турнира, окончательный рейтинг таблицы лидеров будет определен по системе all-play-all и опубликован после выставки. Этот более обширный метод запускает более ста совпадений между каждой парой моделей, чтобы обеспечить статистически надежную и точную оценку производительности. Более подробную информацию и о том, как смотреть игры, вы можете найти на kaggle.com/game-arena. В будущем мы планируем проводить больше турниров на регулярной основе, об этом в ближайшее время. Как мы строим будущее тестов ИИ Это только начало. Наше видение Game Arena выходит далеко за рамки одной игры. В скором времени Kaggle расширит Game Arena новыми вызовами, начиная с таких классических игр, как го и покер. Эти игры, наряду с будущими дополнениями, такими как видеоигры, являются отличными испытаниями способности ИИ выполнять долгосрочное планирование и рассуждение, помогая нам создать всеобъемлющий и постоянно развивающийся эталон для ИИ. Мы стремимся постоянно добавлять новые модели и жгуты, расширяя границы возможностей моделей ИИ. Более подробную информацию о Game Arena и первом шахматном выставочном турнире можно найти в блоге Kaggle. Источник: blog.google Комментарии: |
|