⚪️ Мультисемплинг для агентов в ревью При обсуждении последнего эвала #ddeval #feb2026eval родилась интересная идея - а что если затестить как влияет мультисемплинг на результаты моделей? Я мультисемплинг весьма уважаю, но теоретически. А сейчас бы посомтреть на влияние на результат для конкретных моделей. ▶️ Пока идея следующая. Берем состояние проекта как для эвала использовалось - то есть делаем все на той же самой базе. Запускаем 10 экземпляров агентов: • kimi k2.5 • glm-5 • gemini 3 pro Почему их? Два кита с топовыми результатами и одну фронтирную модель (самую нефронтирную из фронтирных, зато с огромным контекстом, быструю и с крупными лимитами) И делаем тот же самый эвал, только @10 семплингом. И смотрим - как оно с общим количеством найденных проблем соотносится, как с @3 результатом агента на эвале соотносится - в общем, там подумаем как проанализировать 🟢 Идея мне показалось интересной, попробую сделать! Пока зацените как выглядит @10 агентов в ассортименте три штуки. 👉 Из интересного: gemini без проблем сделал 10 сессий и запраймерился. А вот glm втупил в какие то лимиты. На сайте написано конкурентность - 5 запросов! Еле еле пока сделал 8 сессий, последняя праймерилась 12 минут. При том что несколько сессий отработало а 40 секунд. Вот вам и компьют! Kimi не стал рисковать паралелльностью - одну за другой делал, легко и быстро сделал все 10 сессий. Вот так наглядно видно что у GLM нынче реально нехватает компьюта! Надеюсь починят Продолжение следует ... @deksden_notes
⚪️ Мультисемплинг для агентов в ревью При обсуждении последнего эвала #ddeval…
Из этого канала
- #462Проблема кодинга с AI в том, что оно, внезапно, требует подготовки и с наскока…
Проблема кодинга с AI в том, что оно, внезапно, требует подготовки и с наскока не получится добиться надёжного результата.
- #463⚪️ Droid Текущий ассортимент моделей в дроиде весьма интересный, особенно тот…
⚪️ Droid Текущий ассортимент моделей в дроиде весьма интересный, особенно тот факт, что у меня через Lenny на него подписка на год с мелким тарифом.
- #464⚪️ Qwen 3.5 Новость о выходе свежего квена все видели? 🔗…
⚪️ Qwen 3.5 Новость о выходе свежего квена все видели? 🔗 https://qwen.ai/blog?id=qwen3.5 Так вот - он уже в CLI! Где же время найти вас всех потестить? Кстати,…
- #460⚪️ Пост-анализ эвала на ревью по Priority классификации #ddeval #feb2026eval…
⚪️ Пост-анализ эвала на ревью по Priority классификации #ddeval #feb2026eval Решил еще немного помучать агента статистикой.
- #459"⚪️ Подводим итоги первого этапа #ddeval #feb2026eval Сейчас у нас есть…
"⚪️ Подводим итоги первого этапа #ddeval #feb2026eval Сейчас у нас есть консолидированные отчеты каждого агента, по 3 отчета на каждого агента.