"⚪️ Eval-3 (1): планы #ddeval #feb2026eval3 Итак, мы сделали eval-2 как общий… — @deksden_notes

"⚪️ Eval-3 (1): планы #ddeval #feb2026eval3 Итак, мы сделали eval-2 как общий обзорный эвал, и посмотрели как работают свежие модели (qwen 3.5 и gemini 3.1). Задача, на которой он проводился была очень широкой - смотреть все фокусы, то есть анализировать все аспекты кода. Мы убедились, что не каждая модель справляется и в состоянии глубоко подумать над каким то определенным аспектом при такой широкой задаче. Это видно по количеству найденных p0/p1 проблем, которые определенно в коде есть, но не каждая модель их находит даже при увеличении компьюта. 👉 Как повысить качество? Попробуем изменить габариты задачи: вместо широкого поиска сделать поиск фокусным, только по одному аспекту. При этом кодовая база будет той же самой, промпты и общая конструкция флоу - идентичной. Будем смотреть как изменятся результаты, если менять габариты задачи. ▶️ Я решил выбрать для эвала фокусы: • error_handling_reliability • concurrency_state Итого: ревью делается тем же самым промптом, но в промпте вместо перечисления ВСЕХ фокусов указывается ТОЛЬКО ОДИН фокус. И смотрим чего получится, как поменяются результаты моделей по сравнению с ""широким"" эвалом (вырастет ли качество работы), и какое у них будет соотношение друг с другом (насколько дефицит внимания влияет на перфоманс моделей, оценим у кого какой ""запас"" внимания). Набор подопытных - берем 2 топовых кита (kimi/glm), обе Gemini (чтобы понять чего это с ними нынче) и gpt-5.2 как бейзлайн фронтира: * glm-5 в claude code, * kimi k2.5 в дроиде * gemini 3.1 Pro и 3 Flash в Gemini Cli (в поисках где же они таки хороши) * gpt-5.2 в Codex Cli Семплов решил сделать 4 - маловато, но хочется чтобы лимитов на эвал хватило на оба фокуса. То есть у нас будет по каждому фокусу 4 семпла, всего 8 семплов на каждую модель. Таков план! Можно приступать к реализации @deksden_notes"

Из этого канала