"⚪️ Eval-3 (1): планы #ddeval #feb2026eval3 Итак, мы сделали eval-2 как общий обзорный эвал, и посмотрели как работают свежие модели (qwen 3.5 и gemini 3.1). Задача, на которой он проводился была очень широкой - смотреть все фокусы, то есть анализировать все аспекты кода. Мы убедились, что не каждая модель справляется и в состоянии глубоко подумать над каким то определенным аспектом при такой широкой задаче. Это видно по количеству найденных p0/p1 проблем, которые определенно в коде есть, но не каждая модель их находит даже при увеличении компьюта. 👉 Как повысить качество? Попробуем изменить габариты задачи: вместо широкого поиска сделать поиск фокусным, только по одному аспекту. При этом кодовая база будет той же самой, промпты и общая конструкция флоу - идентичной. Будем смотреть как изменятся результаты, если менять габариты задачи. ▶️ Я решил выбрать для эвала фокусы: • error_handling_reliability • concurrency_state Итого: ревью делается тем же самым промптом, но в промпте вместо перечисления ВСЕХ фокусов указывается ТОЛЬКО ОДИН фокус. И смотрим чего получится, как поменяются результаты моделей по сравнению с ""широким"" эвалом (вырастет ли качество работы), и какое у них будет соотношение друг с другом (насколько дефицит внимания влияет на перфоманс моделей, оценим у кого какой ""запас"" внимания). Набор подопытных - берем 2 топовых кита (kimi/glm), обе Gemini (чтобы понять чего это с ними нынче) и gpt-5.2 как бейзлайн фронтира: * glm-5 в claude code, * kimi k2.5 в дроиде * gemini 3.1 Pro и 3 Flash в Gemini Cli (в поисках где же они таки хороши) * gpt-5.2 в Codex Cli Семплов решил сделать 4 - маловато, но хочется чтобы лимитов на эвал хватило на оба фокуса. То есть у нас будет по каждому фокусу 4 семпла, всего 8 семплов на каждую модель. Таков план! Можно приступать к реализации @deksden_notes"
"⚪️ Eval-3 (1): планы #ddeval #feb2026eval3 Итак, мы сделали eval-2 как общий…
690 viewsОткрыть в Telegram →
Из этого канала
- #508"⚪️ Eval-3 (2): а вот и он! #ddeval #feb2026eval3 Итак, приступим, помолясь.…
"⚪️ Eval-3 (2): а вот и он! #ddeval #feb2026eval3 Итак, приступим, помолясь. Запускаю, конкурентность 2 на каждую модель. 😱 Что можно отметить.
- #509"⚪️ Eval-3 (3): итоги #ddeval #feb2026eval3 Самая сложная часть, на самом деле.…
"⚪️ Eval-3 (3): итоги #ddeval #feb2026eval3 Самая сложная часть, на самом деле. Мы получили кучу данных, они перед глазами.
- #510"⚪️ Забавное Переведу: https://x.com/fortelabs/status/2026681391384068260?s=20…
"⚪️ Забавное Переведу: https://x.com/fortelabs/status/2026681391384068260?s=20 —— Подождите, значит, основателем Anthropic является ""Амодей"", то есть…
- #506⚪️ Droid @ Terminal Bench Недавно в чатике обсуждали дроида и terminal bench,…
⚪️ Droid @ Terminal Bench Недавно в чатике обсуждали дроида и terminal bench, что он был топ, но это было давно Дроид прислушался к критике, и обновил бенч.
- #505⚪️ Codex 0.105 с голосовым вводом Новый релиз кодекса с голосовым вводом -…
⚪️ Codex 0.105 с голосовым вводом Новый релиз кодекса с голосовым вводом - включается удерживанием пробела.