Дофамин под ударом: как нейронаука переосмысляет «химическое вещество хорошего самочувствия»

2026-03-23 10:36

работа головного мозга, биологические нейронные сети

Когда в мае нейробиологи соберутся в испанской Севилье на ежегодную встречу Общества дофамина, одна из дискуссий может оказаться особенно оживлённой. На 31-й сессии состоятся дебаты между исследователями, которые фундаментально расходятся во взглядах на роль дофамина в мозге.

Дофамин является одним из наиболее подробно изученных нейромедиаторов, то есть химических веществ, передающих сигналы от клетки к клетке. Именно он имеет наибольшую известность за пределами нейронауки: его часто называют «химическим веществом удовольствия» и изображают как тот самый всплеск вознаграждения, который люди получают от рекреационных наркотиков или бесконечной прокрутки социальных сетей.

Это грубое упрощение того, что делает дофамин. В этом исследователи согласны. Но дальше начинается расхождение. Когда-то существовала простая модель, объяснявшая, как дофамин работает в мозге. Теперь же появились данные, которые требуют либо скорректировать эту теорию, либо вовсе её пересмотреть.

Это может иметь значение не только для фундаментальной нейронауки, но и для клиницистов, которые пытаются объяснять и лечить такие состояния, как синдром дефицита внимания с гиперактивностью и зависимость. Если модель неверна или нуждается в пересмотре, то, возможно, пересмотра требуют и некоторые предположения о том, что лежит в основе этих расстройств и как их лучше лечить.

Классическая идея, известная как гипотеза ошибки предсказания вознаграждения, состоит в том, что всплески дофамина в мозге связывают стимулы с наградой, тем самым помогая укреплять ассоциации, удовлетворяющие потребности животного или человека. Эта модель десятилетиями доминировала в области и направляла исследования, предлагая математическую рамку для интерпретации данных экспериментов на животных, и хорошо объясняла поведение.

Для исследователей, которые пытались наложить простые теории на чрезвычайно сложную организацию мозга, это было редкой удачей. «Дофамин был той единственной областью нейронауки, где у нас была вычислительная модель, объяснявшая, что представляет собой сигнал и что именно он вычисляет», говорит нейробиолог Mark Humphries из Ноттингемского университета в Великобритании. Специалисты в этой области понимали, что некоторые допущения в модели ошибки предсказания вознаграждения были упрощёнными. Но как рабочее объяснение одной части работы мозга она считалась крупным шагом вперёд.

За последние несколько лет её ведущие позиции начали ослабевать. Около десяти лет назад появились экспериментальные методы, позволившие легче отслеживать высвобождение дофамина нейронами в опытах на животных. Это резко расширило возможности нейронауки, поскольку больше лабораторий получили доступ к сбору и анализу данных. И многие из результатов этих исследований указывали на то, что функции дофамина в мозге гораздо шире, чем просто вознаграждение. Были предложены его роли в когнитивных функциях, таких как внимание, рабочая память и даже социальное поведение. Другие исследования показали, что дофаминовые нейроны могут реагировать на новые стимулы, угрозы и движение. Первоначальной модели уже недостаточно, чтобы всё это объяснить, говорит Humphries.

Это оставляет учёных перед вопросом, который и будет обсуждаться на 31-й сессии в Севилье: означает ли это конец пути для самой дорогой сердцу нейронауки модели? Или же эта идея и то, как её адаптировали клиницисты, пытавшиеся понять расстройство дефицита внимания с гиперактивностью, шизофрению и зависимость, стали слишком значимыми, чтобы потерпеть крах? «Я действительно думаю, что этой рамки недостаточно», говорит нейробиолог Kau? Costa из Университета Алабамы в Бирмингеме. «Но знаете, если уж метишь в короля, промахиваться нельзя».

Предсказание вознаграждения

Идея предсказания вознаграждения уходит корнями к знаменитым экспериментам русского психолога Ивана Павлова в двадцатом веке. Он сформулировал идею классического обусловливания, показав, что собаки учатся связывать сигналы окружающей среды с ожиданием пищи. Этот принцип вдохновил специалистов по информатике, которые в 1960-х годах пытались разработать теории машинного обучения, а в 1990-х был использован при создании нейронных сетей.

В 1997 году нейробиологи вновь обратились к этой идее, чтобы объяснить данные эксперимента на приматах. Wolfram Schultz, ныне работающий в Кембриджском университете в Великобритании, и его коллеги показали, как активность дофаминовых нейронов в глубинных отделах мозга менялась по мере того, как обезьяна училась ожидать вознаграждение. Сначала эти нейроны активировались и высвобождали дофамин, когда животное неожиданно получало каплю фруктового сока. Затем экспериментаторы начали включать свет перед подачей сока и обнаружили, что после обучения дофаминовые нейроны активировались уже на свет, то есть на предиктор вознаграждения, а не на сам сок. Если обезьяна ожидала сок, но не получала его, частота разрядов дофаминовых нейронов снижалась.

Гипотеза ошибки предсказания вознаграждения утверждает, что сигналы дофамина со временем позволяют мозгу всё точнее оценивать, откуда может прийти вознаграждение, будь то пища, партнёр или безопасное место.

Это «сияющая вершина вычислительной нейронауки», говорит нейробиолог Nathaniel Daw из Принстонского университета в Нью-Джерси. Теория связывает всплески активности отдельных нейронов со сложными действиями. «Это история, которая проходит весь путь от спайков и синапсов до поведения и зависимости, причём довольно правдоподобным образом».

Сторонники этой теории считают, что в своей основе всплески дофамина сигнализируют о «ценности»: они несут информацию о субъективной значимости, желательности или полезности объекта, действия или результата и помогают животному определить приоритеты. В классическом примере ребёнок впервые слышит мелодию фургона с мороженым, удивляется и радуется тому, что затем получает мороженое. Ценность этого неожиданного вознаграждения вызывает всплеск активности среди нейронов, выделяющих дофамин. При повторных ситуациях ценность и связанный с ней всплеск дофамина полностью переносятся на саму мелодию. Вознаграждение становится ожидаемым, ошибки больше нет, следовательно, нет и сигнала. Если однажды ребёнок слышит мелодию, но не получает мороженое, возникает отрицательная ошибка предсказания вознаграждения, то есть спад активности, который ослабляет ассоциацию. Со временем эта ассоциация усиливает связи между некоторыми нейронами и тем самым перестраивает нейронные пути.

За десятилетия исследователи расширили теорию ошибки предсказания вознаграждения и использовали её для изучения того, как мозг обучается и хранит предсказания о многих вещах помимо награды. Эта более широкая идея получила название обучения с подкреплением по временной разности. Она использует расхождение между предсказанными и реальными значениями во времени для обновления прогнозов и оптимизации действий с целью максимизации будущей выгоды. Множество экспериментов дали данные, поддерживающие эту концепцию. Однако в последние годы появилось всё больше заметных работ, которые расширяют эту простую картину.

Некоторые исследования изучали подгруппы дофаминовых нейронов и обнаружили, что многие из них кодируют не только вознаграждение, но и другие переменные. Например, часть этих нейронов также реагирует на положение животного в лабиринте или на его скорость. Другие, по-видимому, кодируют степень того, насколько текущее движение приближает животное к цели или удаляет его от неё, а не ценность самой цели.

Другие работы ещё больше расширили представление о дофамине. Его сигналы могут одновременно кодировать несколько потенциальных вознаграждений и помогать животным расставлять между ними приоритеты. Например, у певчей птицы дофаминовая система может быть настроена на воду, когда птица испытывает жажду, но перенастраиваться так, чтобы приоритет получало пение, если рядом находится потенциальный партнёр, хотя то, как именно эти нейроны меняют свою настройку, остаётся неясным.

Классическая теория дофамина утверждает, что он сигнализирует об ошибках в предсказании вознаграждения, но недавние данные ставят эту идею под сомнение. Исследование 2025 года показало, что дофамин участвует также в предсказании действий, а это поощряет повторение действий. Это означает, что повторяющееся поведение или привычки, связанные с зависимостью, могут быть не следствием ошибки предсказания вознаграждения. Аналогично, было показано, что дофамин сигнализирует о предсказаниях угроз, аверсивных стимулов и новизны стимула, а не только вознаграждения.

Вопрос, возникающий на фоне таких результатов, сводится к следующему: должна ли область прекратить модифицировать и дополнять существующую модель, чтобы объяснять новые данные, и вместо этого «перейти к новым классам моделей с иными фундаментальными исходными предпосылками», говорит нейробиолог Geoffrey Schoenbaum из Медицинской школы Университета Джонса Хопкинса в Балтиморе, который будет вести сессию в Севилье. «После периода явного доминирования гипотеза ошибки предсказания вознаграждения начинает показывать свой возраст», говорит он.

Свержение короля

Одной из нейробиологов, стремящихся лишить дофамин его прочной связи с вознаграждением, является фармаколог Erin Calipari из Университета Вандербильта в Нэшвилле, штат Теннесси. По её мнению, дофамин лучше рассматривать шире, как способ, с помощью которого мозг направляет и поощряет переработку информации и обучение. Но ей было трудно публиковать статьи, в которых отстаивалась бы эта позиция.

В 2021 году Calipari только начинала самостоятельную работу в качестве руководителя лаборатории и готовила одну из первых статей своей группы. В ней показывалось, что высвобождение дофамина у мышей является ответом на стрессовые стимулы, например на слабые электрические разряды в лапы. Этот результат не укладывается в модель вознаграждения и встретил значительное сопротивление со стороны рецензентов, а также требования провести дополнительные эксперименты, некоторые из которых были явно направлены на получение данных, связанных именно с вознаграждением. «Люди были в ярости», говорит она. «Это был какой-то адский ответ на рецензию».

Один из наиболее прямых вызовов гипотезе ошибки предсказания вознаграждения исходит от нейробиолога Vijay Mohan Namboodiri из Калифорнийского университета в Сан-Франциско, который предложил альтернативную модель, по сути противоположную классической. Если гипотеза ошибки предсказания вознаграждения утверждает, что животное видит сигнал и позже связывает его с наградой, то Namboodiri считает, что всё происходит наоборот: животное, получив награду, оглядывается назад во времени, чтобы выявить сигнал.

Его группа провела ряд опытов на мышах, чтобы попытаться различить это ретроспективное обучение и исходную теорию ошибки предсказания вознаграждения. Например, исследователи давали необученным мышам сахарную воду через случайные интервалы. Согласно классической гипотезе, сначала дофаминовый ответ должен быть высоким, а затем снижаться, поскольку животные учатся, что вознаграждение иногда появляется. Но Namboodiri предположил, что если животное оглядывается назад во времени в поисках сигнала, то дофамин должен возрастать по мере повторного опыта получения награды, потому что он сигнализирует о значимости этих событий и запускает поиск в памяти того, что их вызвало. Результаты эксперимента поддержали его теорию, которую он назвал adjusted net contingency for causal relations.

Namboodiri утверждает, что такая картина ретроспективного обучения интуитивно более понятна. Чаще люди и животные обучаются, получая награду и затем оглядываясь назад в поисках причины, чем отслеживая каждый элемент окружающей среды и его связь с наградой, которая появится только позднее.

Его идея встретила смешанную реакцию. «Я не говорил ни с кем, кто бы понял эту модель. Мы даже целый разбор статьи на неё посвятили», говорит Humphries.

Но если учёные действительно перепутали направление роли дофамина в обучении, как считает Namboodiri, это может иметь клинические последствия для лечения заболеваний мозга. В частности, это могло бы объяснить, почему зависимость так трудно поддаётся лечению.

Одной из главных причин рецидива при зависимости является столкновение человека с сигналами, которые раньше были связаны с наркотиком, указывает он. «Если я бросил курить, то всякий раз, когда я вижу, как кто-то другой курит, это становится сигналом и для меня тоже пойти покурить». По его словам, модель обучения с подкреплением по временной разности не может этого объяснить. Она предсказывает, что всякий раз, когда бывший курильщик видит других курящих, но сам не закуривает, отрицательная ошибка предсказания должна ослаблять эту ассоциацию.

Согласно модели ANCCR, связь сохраняется, потому что если значимым событием является сам акт курения, то выброс дофамина побуждает мозг оглянуться назад и найти объясняющий сигнал. «А вы ведь раньше видели, что всякий раз, когда получаете никотин, рядом кто-то курит, верно? Так что, если угодно, обратная ассоциация здесь стопроцентная». Если это верно, то это подтверждает опыт многих людей, которые пытаются и не могут бросить курить: даже повторное воздержание не стирает память об этом.

Оспаривание статус-кво

Одной из проблем критики модели ошибки предсказания вознаграждения и обучения с подкреплением по временной разности, по словам Humphries, является то, что за 30 лет с момента её появления она была переработана во множестве направлений, часто именно для того, чтобы учесть конкретные возражения. «То, что мы называем моделью, распалось на множество моделей», говорит он. Для критиков, таких как Namboodiri, это создаёт движущуюся мишень и превращает теорию в нечто трудно опровержимое.

Один из примеров касается того, как животные предвосхищают ожидаемое вознаграждение. Около десяти лет назад эксперименты показали, что даже после того, как мыши усваивали, что определённый сигнал предсказывает награду, высвобождение дофамина постепенно нарастало по мере приближения к этой награде. Однако классическая модель обучения с подкреплением по временной разности предсказывает, что всплеск дофамина должен полностью перейти на сигнал, а его постепенное нарастание не согласуется с ошибкой предсказания вознаграждения.

После этого последовала целая серия работ, утверждавших, что классическая модель всё же может учесть дофаминовые «пандусы». Учёным просто пришлось переосмыслить, как именно животное воспринимает мир: если его опыт состоит из серии последовательных моментов времени между сигналом и наградой, а не из одного большого скачка, то по мере приближения во времени ценность награды может возрастать, отсюда и нарастающий сигнал.

Это оправданный подход, считает нейробиолог Samuel Gershman из Гарвардского университета в Кембридже, штат Массачусетс, который заимствовал концепцию ошибки предсказания вознаграждения из машинного обучения и использовал её для переработки классической модели обучения с подкреплением по временной разности так, чтобы она могла учитывать эти дофаминовые нарастания. «Мне кажется, было важно, что это не были просто чисто ad hoc-модификации, вроде “я подправлю этот параметр в теории так, чтобы она совпала с данными”», говорит он.

Вызовы классической модели нарастают, считает нейробиолог Josh Dudman из исследовательского кампуса Janelia Медицинского института Ховарда Хьюза в Ашберне, штат Вирджиния. По его словам, это связано с тем, что теперь учёные могут значительно точнее измерять активность дофаминовых нейронов, которые находятся в глубинных и труднодоступных зонах мозга, и делать это в самых разных условиях. Около десяти лет назад, говорит он, учёные научились помещать генетически кодируемые сенсоры в дофаминовые нейроны и измерять их активность с помощью оптического волокна. «И внезапно стало возможно измерять дофамин во всевозможных контекстах», говорит Dudman. «И мы начали видеть множество исключений и ситуаций, в которых модель уже не так хорошо работала».

Для Calipari вопрос о том, какие именно изолированные функции дофамин выполняет в мозге, поставлен неверно. По её мнению, дофамин нужен для того, чтобы помогать другим нейронным системам работать эффективнее, усиливая связанную с задачей активность и позволяя быстрее принимать решения. «Поэтому я думаю, что он участвует во всём, что вы изучаете».

По её словам, значимость простой математической модели разрушается, когда её пытаются применить к человеческому мозгу. «Я не думаю, что эти модели плохи», говорит она. «Проблемы начинаются тогда, когда люди застревают в модели, созданной для объяснения очень тонкого фрагмента данных, и начинают использовать её для объяснения мозга в целом».

Все исследователи, с которыми беседовал Nature, согласились с тем, что новые данные создают нарастающий вызов модели обучения с подкреплением по временной разности, но мнения о значении этого расходятся. «Мы начинаем осознавать сложность дофамина. Но я пока не готов вместе с водой выплеснуть и ребёнка», говорит нейробиолог David Redish из Университета Миннесоты в Миннеаполисе.

Другие, включая Dudman, охотнее допускают возможность альтернативы. «Я вполне открыт к мысли, что, возможно, нам стоит попробовать что-то совсем иное», говорит он. «Но я знаю, что для многих моих коллег, с которыми я спорю об этом на конференциях, это ощущается тревожно».

Перевод: Жоров Е. Н.

Источник: Adam D. Dopamine takes a hit: how neuroscience is rethinking the ‘feel-good’ chemical. Nature. 2026 Mar;651(8106):572-574. doi: 10.1038/d41586-026-00836-x. PMID: 41845103.

Телеграм: t.me/ainewsline

Источник: psyandneuro.ru

Дофамин под ударом: как нейронаука переосмысляет «химическое вещество хорошего самочувствия»

Комментарии: