Понимание политики и вне политики в обучении с подкреплением

В обучении с подкреплением,

Есть агент А, отвечающий за взаимодействие с окружением, совершение действий и получение новых состояний.
Существует агент B, отвечающий за наблюдение и обучение, обучение тому, как решать, какие действия предпринять, исходя из текущего состояния.

Если эти два агента одинаковы, это соответствует политике.

Если эти два агента различны, это не соответствует политике.

Интересный пример

Когда я смотрю, как мастер го играет против AlphaGo, а AlphaGo — это окружающая среда.

Мастер го отвечает за взаимодействие с Alphago, выбирая следующую позицию на основе выбора Alphago.

Я отвечаю за наблюдение и обучение тому, как выбирать следующую позицию на основе текущего состояния игры между Мастером Го и Альфаго. Постепенно я учусь хорошо играть в го.

Для меня мастер Go — это агент, отвечающий за взаимодействие с окружением, а я — агент, отвечающий за обучение. Эти два агента разные, так что это вне политики.

Еще одно интересное объяснение

В древние времена король хотел узнать больше о жизни простых людей.

Король может предпочесть уйти инкогнито, попасть в толпу и узнать об их жизни (это по-политике), хотя это информация из первых рук, но сам король не может быть везде, и информацию он get может быть неполным.

Поэтому король может послать чиновников узнать о ситуации, а сам может выслушать доклады во дворце (это вне политики).

Формальное объяснение

Типичным алгоритмом для On-Policy является Sarsa.

Типичным алгоритмом для Off-Policy является Q-обучение.

Например, есть политика π, и когда она достигает состояния s’ в соответствии с этой политикой π, она должна предпринять действие a’.

Sarsa (согласно политике) обновляет значения Q следующим образом:

Значение обновляется на основе a’, что означает, что существующая политика π действительно используется, поэтому она называется политикой.

Обучение Q (вне политики) обновляет значения Q следующим образом:

Обновление не использует a', но непосредственно выполняет действие a, которое максимизирует значение Q которое отличается от существующей политики π, поэтому оно называется вне политики .

материалы по теме:

Новые материалы

Уравнение множественной нелинейной регрессии с использованием панели инструментов нейронной сети

Я анализирую данные с шестью входами и одним выходом. Я обучил сеть с помощью Neural Network Toolbox. Я хочу, чтобы эта сеть предсказывала математическую модель или уравнение регрессии...

Методы выбора признаков в машинном обучении

Различные способы, которыми мы можем выбрать лучшие функции, чтобы получить оптимальное соответствие между данными и моделью машинного обучения. Модели машинного обучения могут учиться на данных..

Что такое глубокое обучение и как происходит волшебство?

Простое краткое руководство - для всех. Искусственный интеллект, машинное обучение, чат-боты, НЛП - все это модные словечки в наши дни. От разработчиков до аналитиков и владельцев бизнеса..

Развертывание моделей машинного обучения с использованием контейнеров тремя способами

В этой статье из нашей серии статей о декларативных MLOps я рассказываю о том, как вы можете обернуть свою модель в контейнер для обслуживания прогнозов тремя способами — как служба HTTP, через..

Кеширование во Flutter для Интернета

Как предоставить вашим клиентам самые свежие и лучшие Яркая сторона кеширования Кэширование отлично подходит для частой выборки больших ресурсов: библиотек, изображений или других..

Искусственный интеллект: машинное обучение

Машинное обучение — это быстро развивающаяся область компьютерных наук, которая фокусируется на обучении компьютеров обучению на основе данных без явного программирования. Его важность..

Анализ главных компонентов (PCA)

Это мой первый блог, и самая интересная тема, которую я нашел, — это анализ главных компонентов (PCA). Что такое PCA?? Это неконтролируемая проблема машинного обучения. Ее основная цель —..

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Web Development Python Coding Deep Learning AI React Software Engineering Nodejs Computer Science Java Front End Development Development Algorithms Tech Startup Data Typescript ChatGPT HTML Business Developer Reactjs NLP Neural Networks Education Code Programming Languages AWS CSS Tutorial Angular Testing Learning To Code