Последствия масштабного test-time compute По мере роста возможностей больших языковых моделей результаты бенчмарков (*эталонных тестов*) всё больше определяются вычислительными ресурсами на этапе инференса (*вывода модели*). Скорее всего, мы даже не знаем истинного потолка возможностей современных LLM, потому что измерить его слишком дорого. Пора менять подход к оценке моделей. Читать статью