Вторую неделю медиа полны победных реляций про "медицинский сверхразум" в исполнении Microsoft

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Вторую неделю медиа полны победных реляций про "медицинский сверхразум" в исполнении Microsoft, который якобы "в сложных диагностических случаях" дает результат в 85% против жалких 20% у докторов людей. "Искусственный интеллект превзошел человека!", "Скоро врачи станут не нужны!", “ИИ привносит в медицину радикальную революцию" и все как мы любим.

Что на самом деле?

Cценарий выглядел так: пять языковых моделей (GPT 4o, Сlaude Sonnet и аналоги) выступают в роли "агентов", каждый из которых играет определённую медицинскую роль: врач-первички, радиолог, терапевт, контролер качества и т.д. Они обмениваются сообщениями, задают друг другу вопросы, ищут в интернете, цитируют научные источники и в итоге формируют дифференциальный диагноз.

При этом реальные врачи, с которыми соревновались "агенты" были:

• Ограничены по времени;

• Без доступа к интернету, PubMed, справочникам;

• Работали в одиночку.

ИИ — коллектив, объединённый нейросетевым мозгом с поисковиком и архивом на борту. Врач — один человек без доступа к открытой даже информации. То есть "открытие" в том, что ИИ с доступом в интернет более точен, чем человек без доступа в интернет. На сверхразум не очень тянет.

2 Все кейсы из знакомой панели. Все случаи для тестирования Microsoft взяла из журнала New England Journal of Medicine (NEJM) — одного из самых престижных медицинских изданий в мире. Проблема в том, что статьи из этого журнала входят в стандартные обучающие панели, на которых тренировались все современные языковые модели, включая те, что использовал Microsoft.

Т.е., система не решала новые задачи — она вспоминала ответы на экзаменационные вопросы, которые видела во время подготовки. В машинном обучении это называется "data leakage" (утечка данных) и считается грубейшей методологической ошибкой, обесценивающей любой эксперимент.

3 Возникает интересный вопрос. Если ИИ тестировали на тех же данных, на которых он обучался, почему результат не 100%? Есть два объяснения, и оба не очень для Микрософт.

Первое — они намеренно занизили результат до "правдоподобных" 85%, потому что 100% выглядело бы слишком подозрительно даже для наивной публики. Это классический маркетинговый ход — добавить немного "человечности", реалистичности.

Второе объяснение еще хуже — их ИИ настолько плох, что даже при наличии ответов к экзамену не может их правильно воспроизвести. Классический "троечник", который даже зная ответы не может их повторить в полной мере.

История Microsoft — не исключение, а правило в мире медицинского ИИ.

Сразу вспоминает Epic Sepsis Model — алгоритм для раннего обнаружения внутрибольничного сепсиса, смертельно опасного осложнения многих видов терапий. В пресс-релизе система ставила сепсис в 87% правильно. Все были в восторге. Потом выяснилось, что система "предсказывает" сепсис в основном у тех пациентов, которых врачи уже начали лечить от сепсиса. Алгоритм просто анализировал назначения антибиотиков и "предупреждал" докторов о том, что они уже знали. Когда систему тестировали на данных до начала лечения, результат был ок. 50% - или есть сепсис, или нет.

В лабораторных условиях легко создать впечатляющие цифры, а в реальной клинической практике все оказывается намного сложнее. Поэтому, когда больницы пытались внедрить разрекламированные ИИ-системы, точность падала с обещанных 99% до 60-70% в лучшем случае.

А теперь лайфхак – как распознать вранье в ситуации с медицинским ИИ:

Тестирование на маленьких выборках (у Microsoft – 28 случаев)

Сравнение ИИ с изолированными врачами

Заявления о "сверхчеловеческой" точности

Отсутствие внешних подтверждающих исследований

Результаты только в пресс-релизах

Пока что единственное, в чем ИИ точно превосходит врачей — это способность генерировать хайп и зарабатывать благодаря ему деньги владельцам алгоритмов.


Источник: t.me

Комментарии: