Пионеры обучения с подкреплением получили премию Тьюринга

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Эндрю Дж. Барто и Ричард С. Саттон получили премию Тьюринга 2024 года за развитие обучения с подкреплением. Это метод, при котором искусственный интеллект обучается с помощью вознаграждений и наказаний. ПО постепенно учится находить лучшие решения, совершая ошибки и получая обратную связь от окружающей среды. Учёные начали исследования в этой сфере ещё в 1980-е годы и разработали ключевые алгоритмы, которые до сих пор применяются в индустрии ИИ.

Главной разработкой, которую отметило жюри премии, стало обучение с учетом временной разницы (temporal difference learning, TD-learning). Этот алгоритм позволяет программам корректировать своё поведение не после завершения серии действий, а сразу после каждого отдельного шага. Раньше алгоритмы обучения требовали ждать результата до конца задачи, что сильно замедляло процесс обучения. Барто и Саттон предложили более быстрый способ: сразу учитывать промежуточные результаты, чтобы быстрее настраивать стратегию.

Этот подход оказался особенно эффективным в изменчивой среде, где нужно принимать быстрые решения. Благодаря TD-learning ИИ научился действовать гибко в нестабильных и непредсказуемых условиях. Сегодня эту методику активно применяют в робототехнике, беспилотном транспорте и играх.

Барто и Саттон не ограничились созданием отдельного алгоритма. Они заложили теоретический фундамент для дальнейших исследований обучения с подкреплением. В 1998 году учёные опубликовали знаковый учебник «Обучение с подкреплением: введение» («Reinforcement Learning: An Introduction»). Эта книга стала настольной для тысяч специалистов, работающих с ИИ.

Их разработки стали основой для ряда прорывных проектов последних лет. Например, именно обучение с подкреплением лежит в основе нейросети AlphaGo от компании Google DeepMind. В 2016 году этот ИИ впервые победил профессиональных игроков в древнюю игру го. Совсем недавно китайская компания DeepSeek также использовала принципы обучения с подкреплением при создании своей модели R1.

Премия Тьюринга присуждается Ассоциацией вычислительной техники (ACM). Ее часто называют Нобелевской премией по информатике. Сама Нобелевская премия в последнее время тоже выходит за традиционные рамки и активно включает исследования искусственного интеллекта. В прошлом году лауреатами Нобелевской премии по физике стали Джеффри Хинтон и Джон Хопфилд за фундаментальные работы в области ИИ. Вскоре после этого Демис Хассабис и Джон Джампер из DeepMind получили Нобелевскую премию по химии за создание AlphaFold.

Президент ACM Яннис Иоаннидис заявил, что разработка Барто и Саттона основана на идеях из когнитивной науки, психологии и нейробиологии. Их работа не устарела и не стала проходным этапом. По его словам, обучение с подкреплением сегодня продолжает активно развиваться и способно привести к важным открытиям не только в информатике, но и в других областях науки.

Размер премии Тьюринга в 2024 году составляет $1 млн. Барто и Саттон разделят эту сумму пополам. Денежную часть награды спонсирует компания Google. Среди известных получателей премии Тьюринга прошлых лет — главный научный сотрудник Meta Янн ЛеКун. В 2018 году он получил награду вместе с Джеффри Хинтоном и Йошуа Бенжио за разработки в области глубоких нейронных сетей.


Источник: hightech.plus

Комментарии: