⚪️ Стадия 0, Прайминг #ddeval #feb2026eval С опусом из антигравити возникла сразу же проблема: гугл запросил верификацию моего вьетнамского аккаунта с подпиской на год. Слухи о некотором закручивании гаек, видимо, были небеспочвенными. Верифицировал через смс на телефон через онлайнсим, завел аккаунт, авторизовался, прокинул в VibeProxy для подключения в СС. Ок - едем дальше! Прайминг GLM-5 в CC: id сессии, тайминги и контекст: * g1: 2:53, 19.3% used; * g2: 1:26, 19.5% used; * g3: 1:20, 17.9% used; Заметно медленее Opus и заметно меньше использование контекста! Теперь к опенкоду и MiniMax: * m1: 24s, 12% used; * m2: 15s, 12% used; * m3, 40s, 13$ used; Заполнение контекста небольшое, но очень быстро, ходя одна сессия х2 по времени вышла. Kimi K2.5, opencode: * k1: 18.1s, 9% used; * k2: 20.8s, 9% used; * k3: 18.9s, 9% used; Разброс таймингов минимальный, потребление контекста совсем скромное. И очень быстро! Прайминг opus 4.6 в СС: id сессии, тайминг и контекст: * o1: 53s, 35% used; * o2: 57s, 36% used; * o3: 40s, 31% used; Довольно шустро и без разброса между сессиями. Gemini 3 pro: * все сессии оч быстро отработали (в гемини нету таймера, засекать время неудобно - но тайминги буквально 15-20), и затраты контекста на прайминг в 3-4%; при миллионе контекста это не такой фактор; сессии маркируем gm1-3; Референсный gpt-5.2 high, в кодексе: * c1: 1:41, 10% used; * c2: 2:18, 12% used; * c3: 2:16, 12% used; Не быстро, потребление контекста небольшое. 👉 Краткое наблюдение: разброс в использовании контекста даже в одинаковых упряжках наверное что то означает. Время работы моделей тоже весьма разное. Вы обратили внимание - я идентифицирую сессии работы агента/модели буковкой и цифрой, для понятности - сессий много, чтобы не запутаться в них 🟢 Ок, двигаемся дальше! @deksden_notes
⚪️ Стадия 0, Прайминг #ddeval #feb2026eval С опусом из антигравити возникла…
Из этого канала
- #456⚪️ Стадия широкого исследования #ddeval #feb2026eval Итак, закидываем промпт…
⚪️ Стадия широкого исследования #ddeval #feb2026eval Итак, закидываем промпт на широкое исследование тестового проекта.
- #457⚪️ Большой февральский тест: Glm-5, M2.5, K2.5, opus 4.6, gemini 3 pro, gpt-5.2…
⚪️ Большой февральский тест: Glm-5, M2.5, K2.5, opus 4.6, gemini 3 pro, gpt-5.2 #ddeval #feb2026eval Итак, сегодня делаем большой тест свежих моделей китов…
- #458⚪️ Приступим к эвалу #ddeval #feb2026eval Ну - и к цифрам по отчетам! Это и…
⚪️ Приступим к эвалу #ddeval #feb2026eval Ну - и к цифрам по отчетам! Это и есть, собственно, эвал - количественное выражение некоего эксперимента/оценки.
- #454⚪️ Большой релиз у Cline - CLI 2.0 Анонс: 🔗…
⚪️ Большой релиз у Cline - CLI 2.0 Анонс: 🔗 https://x.com/cline/status/2022341254965772367?s=20 🔗 https://cline.bot/blog/introducing-cline-cli-2-0 Новое: •…
- #453⚪️ Google Stitch ... активно развивается в последнее время. Его развитием…
⚪️ Google Stitch ... активно развивается в последнее время. Его развитием занята команда, которая также занимается Jules, и мне нравится их темп.