Пример работы Вверху указаны принципы (вручную написанные инструкции оценки, общие для большого количества примеров), сам запрос, правильный ответ и ответ какой-то модели (во время тренировки). При этом ответы отличаются, но не ясно, идентичны ли они с точки зрения математики. Seed-Verifier смотрит на это, видит, что не совпадают — и говорит «ответ неправильный, штрафуем модель» Thinking же начинает их сравнивать, оценивает промежуточные значения, и приходит к выводу, что ответы идентичны — а значит нужно выдать «ответ правильный, награждаем обучаемую модель».
Пример работы Вверху указаны принципы (вручную написанные инструкции оценки,…
Из этого канала
- #2805Всем тем, кто последние недели ждал нано-банану — праздник: Google официально…
Всем тем, кто последние недели ждал нано-банану — праздник: Google официально выпустили апдейт своей image-editing модели.
- #2809Когда деньги решают не всё: по информации wired, как минимум три человека уже…
Когда деньги решают не всё: по информации wired, как минимум три человека уже успели покинуть META Superintelligence Team.
- #2810NousResearch выпустили новую модель, на которую в целом во многом побоку, но…
NousResearch выпустили новую модель, на которую в целом во многом побоку, но вместе с ней выпустили RefusalBench, «который проверяет готовность модели быть…
- #2803Seed1.5-Thinking: Advancing Superb Reasoning Models with Reinforcement Learning…
Seed1.5-Thinking: Advancing Superb Reasoning Models with Reinforcement Learning Не полноценный разбор статьи + модели, просто почитал интересную для себя часть…
- #2802Groq, Cerebras, Etched — компании, которые делают свои чипы взамен GPU для…
Groq, Cerebras, Etched — компании, которые делают свои чипы взамен GPU для ускорения инференса LLM.