Ой, что-то мне за это будет… – как мозг корректирует свои ожидания |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2017-04-28 09:37 Дофаминергические нейроны среднего мозга корректируют надлежащую реакцию на происходящее, улавливая разницу между ожидаемым и полученным вознаграждением и подавая сигнал «ошибок предсказания награды» (ОПН). Для изучения этого процесса его моделируют алгоритмом машинного обучения под названием «Метод временной разницы» (Temporal Difference Learning, TD), представляя сигналы ОПН как сигналы ошибки при прохождении обучения алгоритмом TD. Изучая реакцию дофаминергических нейронов мышей на наличие или отсутствие ожидаемой награды, авторы статьи в Nature Neuroscience показали, как можно улучшить эту модель. © Agnieszka Pastuszak — Maksim | Dreamstime Stock Photos Классический алгоритм временной разницы предполагает, что исход зависит от состояния среды, однозначно определяемого наблюдаемыми факторами. В реальной жизни всё не так просто: за одними и теми же сенсорными стимулами могут скрываться совершенно разные вещи: высокая трава в саванне может быть просто травой, а может скрывать опасного хищника, и последствия для антилопы в двух случаях будут различными. Теоретически, модель будет точнее описывать реальность, если совокупность стимулов будет иметь определённую вероятность отражать то или иное состояние среды. Тогда последствия могут быть предсказаны на основании самой вероятной интерпретации имеющейся сенсорной информации. Авторы статьи проверили такую модель на практике. Две группы мышей учились выполнять одинаковое задание в ответ на появление определенного запаха. За это рано или поздно они получали вознаграждение. Первая группа получала награду всегда, а вторая – только в 90% случаев. В процессе эксперимента исследователи записывали реакцию дофаминергических нейронов мышей на изменение времени ожидания награды в зависимости от вероятности её получения. Оказалось, что сигнал ошибок предсказания награды по-разному зависит от времени её ожидания у мышей, получающих поощрение всегда или только иногда: когда мышь точно знает, что получит награду, с каждой секундой вероятность её получения растёт. Если же награда достаётся мыши не всегда, с каждой секундой растёт вероятность того, что ожидание напрасно. При этом классическая модель TD плохо описывала зависимость величины сигналов ОПН от времени ожидания награды для второй группы мышей, а модель TD с вероятностными состояниями делала это довольно точно. Вряд ли когда-нибудь учёным удастся создать модель, идеально описывающую работу мозга. Но, возможно, алгоритмы машинного обучения помогут лучше понять её, а понимание происходящих в мозге процессов, в свою очередь, поможет создавать более эффективные алгоритмы. Текст: Галина Клинк Источник: neuronovosti.ru Комментарии: |
|