Оценка мощности, интеллекта и скорости работы нейросетей

2024-07-31 12:15

Для этого существует универсальная «линейка» - бенчмарки.

1) Что такое бенчмарки?

Это стандартизированный набор заданий, которые нейросети нужно выполнить. Задания варьируются: это могут быть упражнения на понимание речи, на разумность, способность рассуждать, на академические общие и специализированные знания.

Есть математические бенчмарки. С их помощью исследователи могут сравнивать нейросети между собой, проводить обучение, а также оценивать, насколько «умнее» стала новая версия большой языковой модели.

Когда несколько условно одинаковых моделей проходят задания, у исследователей появляется возможность сопоставить их.

Например, одна лучше справляется с логикой и здравым смыслом, у другой лучше получается переводить с одного языка на другой с учетом контекста.

2) Какими бывают бенчмарки?

Нейросеть нужно оценить по разным параметрам. Например, ключевая ее способность — умение распознавать текст и отвечать на вопросы, или общаться в чате, чтобы говорить в них практически по-человечески, или логически рассуждать.

Для каждого такого пункта используются разные бенчмарки. В этом их преимущество и их недостаток — не существует универсальной шкалы оценки, которая позволит измерить модель по всем параметрам.

Зато имеющиеся бенчмарки достаточно точны и просты в использовании.

Вот некоторые примеры:

MMLU и русифицированный аналог YaMMLU_ru от «Яндекса»

Содержит около 15 000 вопросов по 57 гуманитарным, точным и естественным наукам. Чтобы ответить на вопросы корректно, нейросеть придется испытать не только свою эрудицию, но и способность логически рассуждать и обосновывать ответы.

GLUE

Один из классических бенчмарков, который всегда вспоминают, когда речь заходит об оценке LLM. Он оценивает общую способность модели понимать язык.

HellaSwag

Используется для оценки здравого смысла ИИ. Нейросеть должна делать собственные выводы, поэтому в рамках этого бенчмарка модель получает обманчиво логичные, но ошибочные по своей сути ответы на вопросы.

MT Bench

Проверяет способность большой языковой модели вести осмысленный диалог с поправкой на сложный сценарий взаимодействия.

ChatBot Arena

Отдельная платформа, где возможности нейросетей к обучению и генерированию текстов тестируют настоящие живые люди.

Они проверяют разные модели по скорости реагирования, последовательности и полезности, а потом выносят свой вердикт.

Хотя это не бенчмарк в своем традиционном виде, который не вовлекает в процесс оценки человека на активном этапе, ChatBot Arena пользуется большим спросом и позволяет сопоставить несколько LLM в режиме реального времени. И еще он универсальнее аналогов.

3) Есть ли еще способы оценки больших языковых моделей?

Бенчмарки — в настоящее время самый эффективный способ как сравнивать большие языковые модели, так и оценивать, насколько новая версия продукта

улучшилась по сравнению с предыдущей.

Они не без недостатков — им не хватает универсальности, и они не стандартизированы так, как следовало бы, но при всем этом лучшего способа обработать LLM пока не существует.

***

t.me/neural_houses

Источник: vk.com



		Оценка мощности, интеллекта и скорости работы нейросетей
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2024-07-31 12:15 компьютерная лингвистика Для этого существует универсальная «линейка» - бенчмарки. 1) Что такое бенчмарки? Это стандартизированный набор заданий, которые нейросети нужно выполнить. Задания варьируются: это могут быть упражнения на понимание речи, на разумность, способность рассуждать, на академические общие и специализированные знания. Есть математические бенчмарки. С их помощью исследователи могут сравнивать нейросети между собой, проводить обучение, а также оценивать, насколько «умнее» стала новая версия большой языковой модели. Когда несколько условно одинаковых моделей проходят задания, у исследователей появляется возможность сопоставить их. Например, одна лучше справляется с логикой и здравым смыслом, у другой лучше получается переводить с одного языка на другой с учетом контекста. 2) Какими бывают бенчмарки? Нейросеть нужно оценить по разным параметрам. Например, ключевая ее способность — умение распознавать текст и отвечать на вопросы, или общаться в чате, чтобы говорить в них практически по-человечески, или логически рассуждать. Для каждого такого пункта используются разные бенчмарки. В этом их преимущество и их недостаток — не существует универсальной шкалы оценки, которая позволит измерить модель по всем параметрам. Зато имеющиеся бенчмарки достаточно точны и просты в использовании. Вот некоторые примеры: MMLU и русифицированный аналог YaMMLU_ru от «Яндекса» Содержит около 15 000 вопросов по 57 гуманитарным, точным и естественным наукам. Чтобы ответить на вопросы корректно, нейросеть придется испытать не только свою эрудицию, но и способность логически рассуждать и обосновывать ответы. GLUE Один из классических бенчмарков, который всегда вспоминают, когда речь заходит об оценке LLM. Он оценивает общую способность модели понимать язык. HellaSwag Используется для оценки здравого смысла ИИ. Нейросеть должна делать собственные выводы, поэтому в рамках этого бенчмарка модель получает обманчиво логичные, но ошибочные по своей сути ответы на вопросы. MT Bench Проверяет способность большой языковой модели вести осмысленный диалог с поправкой на сложный сценарий взаимодействия. ChatBot Arena Отдельная платформа, где возможности нейросетей к обучению и генерированию текстов тестируют настоящие живые люди. Они проверяют разные модели по скорости реагирования, последовательности и полезности, а потом выносят свой вердикт. Хотя это не бенчмарк в своем традиционном виде, который не вовлекает в процесс оценки человека на активном этапе, ChatBot Arena пользуется большим спросом и позволяет сопоставить несколько LLM в режиме реального времени. И еще он универсальнее аналогов. 3) Есть ли еще способы оценки больших языковых моделей? Бенчмарки — в настоящее время самый эффективный способ как сравнивать большие языковые модели, так и оценивать, насколько новая версия продукта улучшилась по сравнению с предыдущей. Они не без недостатков — им не хватает универсальности, и они не стандартизированы так, как следовало бы, но при всем этом лучшего способа обработать LLM пока не существует. *** t.me/neural_houses Источник: vk.com Комментарии:

Оценка мощности, интеллекта и скорости работы нейросетей

Комментарии: