Прикольная статья, хорошо объясняет работу некоторых RL-методов со странными ревордами