⚪️ Droid @ Terminal Bench Недавно в чатике обсуждали дроида и terminal bench, что он был топ, но это было давно Дроид прислушался к критике, и обновил бенч. Снова #1 https://www.tbench.ai/leaderboard/terminal-bench/2.0 А Если серьено - это к разговору о том, что реально сделать упряжку, которая перформит лучше вендорской (кастомная simple codex от клозедов теперь #2) @deksden_notes
⚪️ Droid @ Terminal Bench Недавно в чатике обсуждали дроида и terminal bench,…
Из этого канала
- #507"⚪️ Eval-3 (1): планы #ddeval #feb2026eval3 Итак, мы сделали eval-2 как общий…
"⚪️ Eval-3 (1): планы #ddeval #feb2026eval3 Итак, мы сделали eval-2 как общий обзорный эвал, и посмотрели как работают свежие модели (qwen 3.5 и gemini 3.1).
- #508"⚪️ Eval-3 (2): а вот и он! #ddeval #feb2026eval3 Итак, приступим, помолясь.…
"⚪️ Eval-3 (2): а вот и он! #ddeval #feb2026eval3 Итак, приступим, помолясь. Запускаю, конкурентность 2 на каждую модель. 😱 Что можно отметить.
- #509"⚪️ Eval-3 (3): итоги #ddeval #feb2026eval3 Самая сложная часть, на самом деле.…
"⚪️ Eval-3 (3): итоги #ddeval #feb2026eval3 Самая сложная часть, на самом деле. Мы получили кучу данных, они перед глазами.
- #505⚪️ Codex 0.105 с голосовым вводом Новый релиз кодекса с голосовым вводом -…
⚪️ Codex 0.105 с голосовым вводом Новый релиз кодекса с голосовым вводом - включается удерживанием пробела.
- #504"⚪️ Зачем вот это всё - Эвалы Тут, наверное, в тему будет легкое лирическое…
"⚪️ Зачем вот это всё - Эвалы Тут, наверное, в тему будет легкое лирическое отступление: зачем я делаю этот некий забег в сторону эвалов.