Альянс в сфере ИИ запустил MERA Code — первый открытый бенчмарк для оценки русскоязычных моделей на реальных задачах программирования |
||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2025-07-31 18:04 Альянс в сфере ИИ представил новый инструмент – MERA Code — первый комплексный открытый бенчмарк для оценки больших языковых моделей в прикладных задачах программирования на русском языке. В разработке бенчмарка принимали участие команды Сбера, Т-Банка, MWS AI (входит в МТС Web Services), Ростелекома, Университета Иннополис, ИТМО, Сколтеха, Центрального университета и компании «Сибирские нейросети». С развитием больших языковых моделей разработчики все чаще используют искусственный интеллект для генерации кода, автоматизации рутинных задач и работы с документацией. Однако до сих пор не существовало единого способа оценить, насколько хорошо эти модели справляются с практическими задачами в русскоязычной среде. MERA Code — это важный шаг к стандартизации и объективности оценки больших языковых моделей в русскоязычной среде программирования. Он позволяет увидеть, насколько современные большие языковые модели действительно полезны и эффективны в реальных задачах локального рынка. Ключевые особенности MERA Code: -Прозрачная методика оценки LLM для русского языка: впервые создан стандарт, учитывающий специфику постановки задач и документации на русском языке. -Задачи и методика оценки отражают типичные кейсы, с которыми сталкиваются программисты в русскоязычной среде. -11 разнообразных задач в форматах text2code, code2text и code2code — на 8 языках программирования: Python, Java, C#, JavaScript, Go, C, C++ и Scala. -Честное тестирование — код запускается в изолированных средах, а не просто оценивается по тексту. -Открытая платформа со сквозной системой подсчёта баллов, рейтингом и удобным фреймворком для тестирования. -Анализ и результаты, охватывающие как открытые общие модели, так и проприетарные API для генерации кода. Инструмент MERA Code будет полезен как разработчикам и инженерам в возможности выбирать наиболее эффективные модели для своих проектов, так и исследователям, которые смогут объективно сравнивать модели в единых условиях, и компаниям, получающим возможность принимать решения на основе открытых и прозрачных данных о качестве LLM. Подробнее о проекте MERA CODE можно прочитать в статье. *** MERA Code – новая ветка бенчмарков MERA, созданная Альянсом в сфере ИИ для оценки кода. Впервые бенчмарк MERA был представлен на международной конференции AI Journey в 2023 году. Впоследствии методологию теста также презентовали на ACL, ведущей научной конференции по компьютерной лингвистике, которая проводится с 1963 года и пользуется поддержкой крупнейших IT-компаний со всего мира, в числе которых Apple, Google Deep Mind, Baidu, IBM и другие. В июне 2025 года в бенчмарке MERA также появилась отраслевая ветка — MERA Industrial Источник: a-ai.ru Комментарии: |
|