Пример работы Вверху указаны принципы (вручную написанные инструкции оценки,… — @seeallochnaya

Пример работы Вверху указаны принципы (вручную написанные инструкции оценки, общие для большого количества примеров), сам запрос, правильный ответ и ответ какой-то модели (во время тренировки). При этом ответы отличаются, но не ясно, идентичны ли они с точки зрения математики. Seed-Verifier смотрит на это, видит, что не совпадают — и говорит «ответ неправильный, штрафуем модель» Thinking же начинает их сравнивать, оценивает промежуточные значения, и приходит к выводу, что ответы идентичны — а значит нужно выдать «ответ правильный, награждаем обучаемую модель».

Из этого канала