Claude обогнал докторов наук в биоинформатике: Anthropic выкатил BioMysteryBench и результаты пугают

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



2026-05-01 10:48

ИИ проекты

Anthropic опубликовал свежее исследование, и оно ломает привычное представление о том, на что способны современные LLM в науке. Новый бенчмарк BioMysteryBench проверяет, может ли модель решать реальные задачи биоинформатики, и Claude уже на равных с PhD-экспертами, а на части задач обходит целые панели учёных.

Зачем ещё один бенчмарк? Существующие тесты MMLU-Pro, GPQA и LAB-Bench меряют знания, а BLADE, BixBench и SciGym оценивают агентные сценарии. Anthropic собрал 99 заданий от доменных экспертов, причём правильный ответ выводится не из субъективного вывода учёного, а из контролируемых свойств данных или валидированной метаинформации.

Claude получает доступ к каноническим биоинформатическим инструментам, ставит пакеты через pip и conda, дёргает NCBI и Ensembl, скачивает референсные геномы. Решения оцениваются по итоговому ответу, а не по пути.

На 76 задачах, которые смог решить хотя бы один человек, последние поколения Claude уверенно на уровне доменных экспертов. На 23 задачах, которые панель из 5 PhD не осилила, Claude Mythos Preview добирается до 30%.

Anthropic выделяет два приёма: know-it-all (Claude тащит знания из сотен тысяч статей и комбинирует с живым анализом) и многосторонняя верификация (когда модель не уверена, она запускает несколько разных методов и берёт ответ, на котором сходятся независимые подходы).

Параллельно Genentech и Roche выкатили CompBioBench: Claude Opus 4.6 берёт 81% в общем зачёте и 69% на самых сложных вопросах.

Источник (https://www.anthropic.com/research/Evaluating-Claude-For-Bioinformatics-With-BioMysteryBench)


Телеграм: t.me/ainewsline

Источник: www.anthropic.com

Комментарии: