"SGR Benchmark моделей - OpenAI OSS модели хороши Раньше я этот бенчмарк… — @llm_under_hood

"SGR Benchmark моделей - OpenAI OSS модели хороши Раньше я этот бенчмарк называл LLM Reasoning бенчмарк. Но по факту, тут у всех моделей работает Schema Guided Reasoning (SGR). В каждой задаче есть своя схема рассуждений, которая проводит модель по ключевым точкам и подводит к ответу. Если у модели есть Structured Outputs (SO), то следование схеме размышлений гарантировано, а если нет, то модель может и слететь с ""рельсов"". Когда такое происходит, ответ вылетает с ошибкой (см колонку Err). Чем мощнее модель, тем лучше она может справиться с задачей следования схеме без constrained decoding. На данный момент, именно так и обстоит ситуация с новыми моделями от OpenAI - GPT OSS 120B и 20B. Пока ни один из провайдеров (даже Fireworks) не поддерживает constrained decoding из-за новой архитектуры. 20B заняла 18е место, что стало лучшим результатом для модели такого размера. А вот 120B при использовании SGR попала сразу на 3 место, что просто невероятно 🥳 Говорят, что локальную модель 120B можно запускать со скоростью 1000 tokens/second на H100/B200 и 10-50 tokens/sec на Mac M4. А 5090 вывозит 20B со скоростью 250 tokens/second. Спасибо OpenAI за классный подарок! Ваш, @llm_under_hood 🤗"

Из этого канала