Оценка мощности, интеллекта и скорости работы нейросетей |
||
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2024-07-31 12:15 Для этого существует универсальная «линейка» - бенчмарки. 1) Что такое бенчмарки? Это стандартизированный набор заданий, которые нейросети нужно выполнить. Задания варьируются: это могут быть упражнения на понимание речи, на разумность, способность рассуждать, на академические общие и специализированные знания. Есть математические бенчмарки. С их помощью исследователи могут сравнивать нейросети между собой, проводить обучение, а также оценивать, насколько «умнее» стала новая версия большой языковой модели. Когда несколько условно одинаковых моделей проходят задания, у исследователей появляется возможность сопоставить их. Например, одна лучше справляется с логикой и здравым смыслом, у другой лучше получается переводить с одного языка на другой с учетом контекста. 2) Какими бывают бенчмарки? Нейросеть нужно оценить по разным параметрам. Например, ключевая ее способность — умение распознавать текст и отвечать на вопросы, или общаться в чате, чтобы говорить в них практически по-человечески, или логически рассуждать. Для каждого такого пункта используются разные бенчмарки. В этом их преимущество и их недостаток — не существует универсальной шкалы оценки, которая позволит измерить модель по всем параметрам. Зато имеющиеся бенчмарки достаточно точны и просты в использовании. Вот некоторые примеры: MMLU и русифицированный аналог YaMMLU_ru от «Яндекса» Содержит около 15 000 вопросов по 57 гуманитарным, точным и естественным наукам. Чтобы ответить на вопросы корректно, нейросеть придется испытать не только свою эрудицию, но и способность логически рассуждать и обосновывать ответы. GLUE Один из классических бенчмарков, который всегда вспоминают, когда речь заходит об оценке LLM. Он оценивает общую способность модели понимать язык. HellaSwag Используется для оценки здравого смысла ИИ. Нейросеть должна делать собственные выводы, поэтому в рамках этого бенчмарка модель получает обманчиво логичные, но ошибочные по своей сути ответы на вопросы. MT Bench Проверяет способность большой языковой модели вести осмысленный диалог с поправкой на сложный сценарий взаимодействия. ChatBot Arena Отдельная платформа, где возможности нейросетей к обучению и генерированию текстов тестируют настоящие живые люди. Они проверяют разные модели по скорости реагирования, последовательности и полезности, а потом выносят свой вердикт. Хотя это не бенчмарк в своем традиционном виде, который не вовлекает в процесс оценки человека на активном этапе, ChatBot Arena пользуется большим спросом и позволяет сопоставить несколько LLM в режиме реального времени. И еще он универсальнее аналогов. 3) Есть ли еще способы оценки больших языковых моделей? Бенчмарки — в настоящее время самый эффективный способ как сравнивать большие языковые модели, так и оценивать, насколько новая версия продукта улучшилась по сравнению с предыдущей. Они не без недостатков — им не хватает универсальности, и они не стандартизированы так, как следовало бы, но при всем этом лучшего способа обработать LLM пока не существует. *** t.me/neural_houses Источник: vk.com Комментарии: |
|