В обучении с подкреплением,

  • Есть агент А, отвечающий за взаимодействие с окружением, совершение действий и получение новых состояний.
  • Существует агент B, отвечающий за наблюдение и обучение, обучение тому, как решать, какие действия предпринять, исходя из текущего состояния.

Если эти два агента одинаковы, это соответствует политике.

Если эти два агента различны, это не соответствует политике.

Интересный пример

Когда я смотрю, как мастер го играет против AlphaGo, а AlphaGo — это окружающая среда.

Мастер го отвечает за взаимодействие с Alphago, выбирая следующую позицию на основе выбора Alphago.

Я отвечаю за наблюдение и обучение тому, как выбирать следующую позицию на основе текущего состояния игры между Мастером Го и Альфаго. Постепенно я учусь хорошо играть в го.

Для меня мастер Go — это агент, отвечающий за взаимодействие с окружением, а я — агент, отвечающий за обучение. Эти два агента разные, так что это вне политики.

Еще одно интересное объяснение

В древние времена король хотел узнать больше о жизни простых людей.

Король может предпочесть уйти инкогнито, попасть в толпу и узнать об их жизни (это по-политике), хотя это информация из первых рук, но сам король не может быть везде, и информацию он get может быть неполным.

Поэтому король может послать чиновников узнать о ситуации, а сам может выслушать доклады во дворце (это вне политики).

Формальное объяснение

Типичным алгоритмом для On-Policy является Sarsa.

Типичным алгоритмом для Off-Policy является Q-обучение.

Например, есть политика π, и когда она достигает состояния s’ в соответствии с этой политикой π, она должна предпринять действие a’.

Sarsa (согласно политике) обновляет значения Q следующим образом:

Значение обновляется на основе a’, что означает, что существующая политика π действительно используется, поэтому она называется политикой.

Обучение Q (вне политики) обновляет значения Q следующим образом:

Обновление не использует a', но непосредственно выполняет действие a, которое максимизирует значение Q которое отличается от существующей политики π, поэтому оно называется вне политики .