Нейробиологи делают неожиданный обходной маневр, чтобы расшифровать процесс принятия решений

В статье, опубликованной на прошлой неделе в журнале Nature Neuroscience , исследователи из Питтсбургского университета описали, как сигналы вознаграждения в мозгу модулируются неопределенностью. Сигналы дофамина переплетаются с обучением за вознаграждение; они учат мозг, какие сигналы или действия предсказывают лучшую награду. Новые данные лаборатории Штауфера в Медицинской школе Питта показывают, что сигналы дофамина также отражают уверенность в прогнозах вознаграждения.

Короче говоря, сигналы дофамина могут научить мозг о вероятности получения награды.

Авторами исследования были трое аспирантов Кэтрин (Кати) Ротенхофер, Айдын Аликая и Тао Хонг, а также доцент кафедры нейробиологии доктор Уильям Штауфер.

Ротенхофер (KR) и Штауффер (WS) поделились своими взглядами на ключевые идеи, которые их работа показывает о внутренней работе мозга.

Вкратце, какова предыстория этого исследования?

КР: Мы изучали двусмысленность — сложный фактор окружающей среды, из-за которого людям и животным трудно знать, что предсказывать, — и этот проект был крутым обходным путем, который органически возник на основе наших предварительных данных. Мы обнаружили кое-что интересное, чего не ожидали, и довели дело до конца.

WS: Дофаминовые нейроны имеют решающее значение для обучения за вознаграждение. Дофаминовые нейроны активируются вознаграждением, которое лучше, чем прогнозировалось, и подавляются вознаграждением, которое хуже прогнозируемого. Этот образец активности напоминает «ошибки предсказания вознаграждения», то есть разницу между полученным и прогнозируемым вознаграждением.

Ошибки предсказания вознаграждения имеют решающее значение для обучения животных и машинного обучения. Однако в классических теориях обучения животных и машинного обучения «предсказанные награды» — это просто среднее значение прошлых результатов. Хотя эти прогнозы полезны, было бы гораздо полезнее прогнозировать средние значения, а также более сложную статистику, отражающую неопределенность. Поэтому мы хотели знать, отражают ли обучающие сигналы дофамина эту более сложную статистику и можно ли их использовать, чтобы научить мозг реальным стимулам.

Каковы основные выводы вашей работы?

WS: Главный вывод заключается в том, что редкие вознаграждения усиливают дофаминовые реакции по сравнению с вознаграждениями такого же размера, которые доставляются с большей частотой. Это означает, что прогнозирующие нейронные сигналы отражают неопределенность прогнозов, а не только прогнозируемые значения. Это также означает, что одна из основных систем обучения с вознаграждением в мозге может оценивать неопределенность и потенциально обучать нижележащие структуры мозга об этой неопределенности.

Источник: perelomanet.ru