⚪️ Стадия 0, Прайминг #ddeval #feb2026eval С опусом из антигравити возникла… — @deksden_notes

⚪️ Стадия 0, Прайминг #ddeval #feb2026eval С опусом из антигравити возникла сразу же проблема: гугл запросил верификацию моего вьетнамского аккаунта с подпиской на год. Слухи о некотором закручивании гаек, видимо, были небеспочвенными. Верифицировал через смс на телефон через онлайнсим, завел аккаунт, авторизовался, прокинул в VibeProxy для подключения в СС. Ок - едем дальше! Прайминг GLM-5 в CC: id сессии, тайминги и контекст: * g1: 2:53, 19.3% used; * g2: 1:26, 19.5% used; * g3: 1:20, 17.9% used; Заметно медленее Opus и заметно меньше использование контекста! Теперь к опенкоду и MiniMax: * m1: 24s, 12% used; * m2: 15s, 12% used; * m3, 40s, 13$ used; Заполнение контекста небольшое, но очень быстро, ходя одна сессия х2 по времени вышла. Kimi K2.5, opencode: * k1: 18.1s, 9% used; * k2: 20.8s, 9% used; * k3: 18.9s, 9% used; Разброс таймингов минимальный, потребление контекста совсем скромное. И очень быстро! Прайминг opus 4.6 в СС: id сессии, тайминг и контекст: * o1: 53s, 35% used; * o2: 57s, 36% used; * o3: 40s, 31% used; Довольно шустро и без разброса между сессиями. Gemini 3 pro: * все сессии оч быстро отработали (в гемини нету таймера, засекать время неудобно - но тайминги буквально 15-20), и затраты контекста на прайминг в 3-4%; при миллионе контекста это не такой фактор; сессии маркируем gm1-3; Референсный gpt-5.2 high, в кодексе: * c1: 1:41, 10% used; * c2: 2:18, 12% used; * c3: 2:16, 12% used; Не быстро, потребление контекста небольшое. 👉 Краткое наблюдение: разброс в использовании контекста даже в одинаковых упряжках наверное что то означает. Время работы моделей тоже весьма разное. Вы обратили внимание - я идентифицирую сессии работы агента/модели буковкой и цифрой, для понятности - сессий много, чтобы не запутаться в них 🟢 Ок, двигаемся дальше! @deksden_notes

Из этого канала