Прогноз из черного ящика: применяем машинное обучение к предсказанию пандемии COVID-19

2020-05-01 09:01

алгоритмы машинного обучения, искусственный интеллект в медицине

В апреле «Сбербанк» вместе с сообществом Open Data Science проводил конкурс, участники которого состязались в точности алгоритмических прогнозов изменения числа заболевших COVID-19 за неделю для разных стран и городов. Владислав Крамаренко, сделавший лучшее публичное решение для конкурса (посмотреть его можно тут), рассказал нам о том, что может и чего не может сказать алгоритм о будущем.

Эпидемии моделируют при помощи модели SIR (от Susceptible, Infected, Recovered — то есть восприимчивых, зараженных, выздоровевших) и ее вариаций: SEIR (которая делит жертв болезни на «контактных» и зараженных людей), SIRS (которая учитывает «срок годности» иммунитета переболевших) и других. Они отличаются в основном тем, каким типам инфекций лучше подходят.

Такое моделирование можно назвать моделированием «из первых принципов» — вы определяете, с какими факторами имеете дело, определяете законы, которым эти факторы подчиняются, подбираете коэффициенты и получаете инструмент для прогноза.

Но для того, чтобы ваш прогноз был хорошим, нужно хорошо знать эти самые коэффиценты. В том, что касается нового коронавируса, то со знаниями у нас пока не очень хорошо: он новый, его эпидемия с нами случилась впервые и еще не закончилась.

Мы не знаем, например, какой точно у COVID-19 базовый коэффициент воспроизведения (R₀) — скольких человек заражает один больной. А этот параметр для модели ключевой. Есть те, кто считает что R₀ у коронавируса равен четырем, есть те, кто считает, что двум — но отклонение на единицу приводит к тому, что полученные графики очень сильно отличаются.

Можно заниматься подгонкой этих цифр, конечно, и этим много кто занимается, но ценность подобного — особенно на короткой дистанции, типа недели — сомнительна. Тот же самый базовый коэффициент воспроизведения это не абсолютная метрика, на нее влияет множество внешних причин. Где-то вводят карантин, и коэффициент должен упасть, но насколько — сказать нельзя: в разных странах это происходит по-разному, поэтому однозначно эффект карантина оценить невозможно. Кроме того, нам неизвестно точное число заболевших (это сильно завязано, в частности, на количество тестов), неизвестно количество бессимптомных носителей, и так далее. А все это тоже влияет на то, что предсказывает модель.

Я посмотрел на инструменты этого типа: открыл несколько научных статей и быстро понял, что попытка построить краткосрочный прогноз на решении дифференциальных уравнений почти безнадежна. Только один, по-моему, из участников всего конкурса, так поступил, там R₀ каждый день немного меняется: его модель не самые плохие результаты показывает, но и не самые лучшие.

Так, например, накладывались реальные данные на модель распространения COVID-19 в Ухани, построенную в конце февраля

Bulletin of the World Health Organization / CC BY IGO 3.0

Поэтому я зашел со стороны машинного обучения. Машина ничего не знает про вирусы, ничего не знает про эпидемии, она имеет дело с рядом чисел и просто делает предсказание о том, как он будет меняться дальше. В этом предсказании она будет учитывать факторы, которые вы ей дадите.

Я взял данные, которые собрали на платформе kaggle в рамках инициативы CORD-19 (COVID-19 Open Research Dataset), запущенной в марте правительством США: там есть уже размеченные данные о населении стран, площади, степени урбанизации, проценте пожилых людей, количестве курящих, данные Всемирного банка об уровне медицины: количестве врачей, медсестер, трат государства на медицину, числе тестов на коронавирус в день. Часть данных предоставили организаторы. Также помогла информация о мобильности людей от Google и уровне самоизоляции от Яндекса. Информация о числе новых случаев в России бралась с сайта Роспотребнадзора.

Затем все эти параметры по странам, вместе с данными по изменению числа заболевших за несколько дней, «скармливались» разным алгоритмам. Самыми значимыми параметрами оказались число дней с первого (десятого, сотого, тысячного) зараженного, а также изменение числа зараженных за прошлый день.

Эффективнее всего сработала модель градиентного бустинга над решающими деревьями. Она на каждом шаге оценивает данные за выбранный день в конкретном регионе (стране, области или городе) — население, площадь, урбанизацию и изменение числа зараженных за прошлый день — по какому-то параметру, чтобы в конце прийти в вершину, наиболее подходящую данным. В этой вершине может содержаться, например, количество новых случаев, обнаруженных в этот день, или процент прироста. Например, сначала модель может посмотреть, был ли введен карантин в стране. Если да, модель идет по первой ветви, если нет, то по второй. Далее спросит, прошло ли больше 30 дней после первого зараженного, и опять происходит разветвление, и так далее. Порядок этих вопросов она определяет сама, пытаясь на каждом шаге уменьшить энтропию.

Прогноз модели по Москве, сделанный 1 апреля

Прогноз модели по Москве, сделанный 8 апреля

Прогноз модели по Москве, сделанный 29 апреля

Основная проблема таких прогнозов — это плохие исходные данные. Если мусор на входе, то мусор и на выходе. Мой опыт за этот месяц показывает, что данные разных стран нельзя напрямую сравнивать, так как в каждой стране своя специфика. Где-то тестируют только тяжело больных, где-то почти всех, а где-то данные запаздывают на неделю.

Модель более-менее хорошо может предсказывать только на короткой дистанции. Каждый следующий день предсказывается на основе предыдущего, и потому ошибка предсказания накапливается. Если бы нужно было делать предсказание не на неделю, а на год, то конечно надо было браться за эпидемиологические модели, а не просто кормить машину данными.

А так — то если, например, увеличить горизонт модели с недели до года, она скорее всего просто продолжит предсказывать увеличение числа зараженных, может наверняка и за пределы населения уйти. Там никакого потолка нет, она же не знает, что ряд, который она продолжает, это число зараженных людей в популяции, которая конечна.

Прогнозы самых точных алгоритмов по России на неделю с 27 апреля по 3 мая. Решение Крамаренко — niw 0.122

Источник: c19p.ru

Когда мы делали предсказание по странам, модели пришлось тяжело: многие из стран начали выходить на плато — а она им продолжала прибавлять, потому что не понимала, что происходит. Или наоборот: вот есть Ненецкий автономный округ, там очень долго был ровно один заболевший, а потом однажды раз — и плюс 27. Конечно, модель этого предсказать не могла. Она исправилась, но ей для этого потребовалось еще два дня.

Все прогнозы по регионам России можно посмотреть тут.

Подготовил Сергей Кузнецов

Телеграм: t.me/ainewsline

Источник: nplus1.ru



		Прогноз из черного ящика: применяем машинное обучение к предсказанию пандемии COVID-19
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ Атаки на ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2020-05-01 09:01 алгоритмы машинного обучения, искусственный интеллект в медицине В апреле «Сбербанк» вместе с сообществом Open Data Science проводил конкурс, участники которого состязались в точности алгоритмических прогнозов изменения числа заболевших COVID-19 за неделю для разных стран и городов. Владислав Крамаренко, сделавший лучшее публичное решение для конкурса (посмотреть его можно тут), рассказал нам о том, что может и чего не может сказать алгоритм о будущем. Эпидемии моделируют при помощи модели SIR (от Susceptible, Infected, Recovered — то есть восприимчивых, зараженных, выздоровевших) и ее вариаций: SEIR (которая делит жертв болезни на «контактных» и зараженных людей), SIRS (которая учитывает «срок годности» иммунитета переболевших) и других. Они отличаются в основном тем, каким типам инфекций лучше подходят. Такое моделирование можно назвать моделированием «из первых принципов» — вы определяете, с какими факторами имеете дело, определяете законы, которым эти факторы подчиняются, подбираете коэффициенты и получаете инструмент для прогноза. Но для того, чтобы ваш прогноз был хорошим, нужно хорошо знать эти самые коэффиценты. В том, что касается нового коронавируса, то со знаниями у нас пока не очень хорошо: он новый, его эпидемия с нами случилась впервые и еще не закончилась. Мы не знаем, например, какой точно у COVID-19 базовый коэффициент воспроизведения (R₀) — скольких человек заражает один больной. А этот параметр для модели ключевой. Есть те, кто считает что R₀ у коронавируса равен четырем, есть те, кто считает, что двум — но отклонение на единицу приводит к тому, что полученные графики очень сильно отличаются. Можно заниматься подгонкой этих цифр, конечно, и этим много кто занимается, но ценность подобного — особенно на короткой дистанции, типа недели — сомнительна. Тот же самый базовый коэффициент воспроизведения это не абсолютная метрика, на нее влияет множество внешних причин. Где-то вводят карантин, и коэффициент должен упасть, но насколько — сказать нельзя: в разных странах это происходит по-разному, поэтому однозначно эффект карантина оценить невозможно. Кроме того, нам неизвестно точное число заболевших (это сильно завязано, в частности, на количество тестов), неизвестно количество бессимптомных носителей, и так далее. А все это тоже влияет на то, что предсказывает модель. Я посмотрел на инструменты этого типа: открыл несколько научных статей и быстро понял, что попытка построить краткосрочный прогноз на решении дифференциальных уравнений почти безнадежна. Только один, по-моему, из участников всего конкурса, так поступил, там R₀ каждый день немного меняется: его модель не самые плохие результаты показывает, но и не самые лучшие. Так, например, накладывались реальные данные на модель распространения COVID-19 в Ухани, построенную в конце февраля Bulletin of the World Health Organization / CC BY IGO 3.0 Поэтому я зашел со стороны машинного обучения. Машина ничего не знает про вирусы, ничего не знает про эпидемии, она имеет дело с рядом чисел и просто делает предсказание о том, как он будет меняться дальше. В этом предсказании она будет учитывать факторы, которые вы ей дадите. Я взял данные, которые собрали на платформе kaggle в рамках инициативы CORD-19 (COVID-19 Open Research Dataset), запущенной в марте правительством США: там есть уже размеченные данные о населении стран, площади, степени урбанизации, проценте пожилых людей, количестве курящих, данные Всемирного банка об уровне медицины: количестве врачей, медсестер, трат государства на медицину, числе тестов на коронавирус в день. Часть данных предоставили организаторы. Также помогла информация о мобильности людей от Google и уровне самоизоляции от Яндекса. Информация о числе новых случаев в России бралась с сайта Роспотребнадзора. Затем все эти параметры по странам, вместе с данными по изменению числа заболевших за несколько дней, «скармливались» разным алгоритмам. Самыми значимыми параметрами оказались число дней с первого (десятого, сотого, тысячного) зараженного, а также изменение числа зараженных за прошлый день. Эффективнее всего сработала модель градиентного бустинга над решающими деревьями. Она на каждом шаге оценивает данные за выбранный день в конкретном регионе (стране, области или городе) — население, площадь, урбанизацию и изменение числа зараженных за прошлый день — по какому-то параметру, чтобы в конце прийти в вершину, наиболее подходящую данным. В этой вершине может содержаться, например, количество новых случаев, обнаруженных в этот день, или процент прироста. Например, сначала модель может посмотреть, был ли введен карантин в стране. Если да, модель идет по первой ветви, если нет, то по второй. Далее спросит, прошло ли больше 30 дней после первого зараженного, и опять происходит разветвление, и так далее. Порядок этих вопросов она определяет сама, пытаясь на каждом шаге уменьшить энтропию. Прогноз модели по Москве, сделанный 1 апреля Прогноз модели по Москве, сделанный 8 апреля Прогноз модели по Москве, сделанный 29 апреля Основная проблема таких прогнозов — это плохие исходные данные. Если мусор на входе, то мусор и на выходе. Мой опыт за этот месяц показывает, что данные разных стран нельзя напрямую сравнивать, так как в каждой стране своя специфика. Где-то тестируют только тяжело больных, где-то почти всех, а где-то данные запаздывают на неделю. Модель более-менее хорошо может предсказывать только на короткой дистанции. Каждый следующий день предсказывается на основе предыдущего, и потому ошибка предсказания накапливается. Если бы нужно было делать предсказание не на неделю, а на год, то конечно надо было браться за эпидемиологические модели, а не просто кормить машину данными. А так — то если, например, увеличить горизонт модели с недели до года, она скорее всего просто продолжит предсказывать увеличение числа зараженных, может наверняка и за пределы населения уйти. Там никакого потолка нет, она же не знает, что ряд, который она продолжает, это число зараженных людей в популяции, которая конечна. Прогнозы самых точных алгоритмов по России на неделю с 27 апреля по 3 мая. Решение Крамаренко — niw 0.122 Источник: c19p.ru Когда мы делали предсказание по странам, модели пришлось тяжело: многие из стран начали выходить на плато — а она им продолжала прибавлять, потому что не понимала, что происходит. Или наоборот: вот есть Ненецкий автономный округ, там очень долго был ровно один заболевший, а потом однажды раз — и плюс 27. Конечно, модель этого предсказать не могла. Она исправилась, но ей для этого потребовалось еще два дня. Все прогнозы по регионам России можно посмотреть тут. Подготовил Сергей Кузнецов Телеграм: t.me/ainewsline Источник: nplus1.ru Комментарии:

Прогноз из черного ящика: применяем машинное обучение к предсказанию пандемии COVID-19

Комментарии: