⚪️ Мультисемплинг для агентов в ревью При обсуждении последнего эвала #ddeval… — @deksden_notes

⚪️ Мультисемплинг для агентов в ревью При обсуждении последнего эвала #ddeval #feb2026eval родилась интересная идея - а что если затестить как влияет мультисемплинг на результаты моделей? Я мультисемплинг весьма уважаю, но теоретически. А сейчас бы посомтреть на влияние на результат для конкретных моделей. ▶️ Пока идея следующая. Берем состояние проекта как для эвала использовалось - то есть делаем все на той же самой базе. Запускаем 10 экземпляров агентов: • kimi k2.5 • glm-5 • gemini 3 pro Почему их? Два кита с топовыми результатами и одну фронтирную модель (самую нефронтирную из фронтирных, зато с огромным контекстом, быструю и с крупными лимитами) И делаем тот же самый эвал, только @10 семплингом. И смотрим - как оно с общим количеством найденных проблем соотносится, как с @3 результатом агента на эвале соотносится - в общем, там подумаем как проанализировать 🟢 Идея мне показалось интересной, попробую сделать! Пока зацените как выглядит @10 агентов в ассортименте три штуки. 👉 Из интересного: gemini без проблем сделал 10 сессий и запраймерился. А вот glm втупил в какие то лимиты. На сайте написано конкурентность - 5 запросов! Еле еле пока сделал 8 сессий, последняя праймерилась 12 минут. При том что несколько сессий отработало а 40 секунд. Вот вам и компьют! Kimi не стал рисковать паралелльностью - одну за другой делал, легко и быстро сделал все 10 сессий. Вот так наглядно видно что у GLM нынче реально нехватает компьюта! Надеюсь починят Продолжение следует ... @deksden_notes

Из этого канала