Google выложили отдельный блогпост о том, как хороша их модель в обработке изображений и видео. Perception у моделей семейства Gemini традиционно хороший — самописные каракули распознаёт стабильно. Очень солидные приросты в категории Screen с двумя бенчмарками, направленными на понимание пользовательских интерфейсов — что означает, что модель должна хорошо понимать, куда кликать, чтобы сделать то или иное действие. К сожалению, до сих пор не увидел ни одного замера на Computer Using Agents-бенчмарках вроде OSWorld — во времена релиза 2.5 Google их прям сразу выставил, а тут тянут 🤔 Мой достаточно ограниченный опыт взаимодействия с агентом для кодинга на основе Gemini 3 больше негативный — модели сложно даются длинные цепочки изменений с вызовом инструментов. А как у вас? Слезли с Claude / Codex? P.S.: что точно очень нравится — это написание текстов, ответы читать приятнее, чем у механической GPT-5 (и по формату, и по формулировкам). Вопросы по статьям теперь закидываю в неё.
Google выложили отдельный блогпост о том, как хороша их модель в обработке…
Из этого канала
- #3175"Посмотрел получасовое интервью с CEO Anthropic Dario Amodei, в котором он на…
"Посмотрел получасовое интервью с CEO Anthropic Dario Amodei, в котором он на протяжении получаса пытается не называть компанию OpenAI по их названию, заменяя…
- #3176Ещё из этого интервью услышал идиому hands down, попросил ChatGPT объяснить…
Ещё из этого интервью услышал идиому hands down, попросил ChatGPT объяснить этимологию.
- #3177Часто в комментариях обсуждают, что вот попробовали какую-то модель (часто —…
Часто в комментариях обсуждают, что вот попробовали какую-то модель (часто — китайскую, GLM/Kimi/DeepSeek) для программирования, и она в целом даже не так…
- #3173😡 нет. К нашему счастью, с авторами связался небезызвестный в узких кругах…
😡 нет. К нашему счастью, с авторами связался небезызвестный в узких кругах Nicholas Carlini и попросил авторов прогнать модель, но используя Claude Code —…
- #3172Многие агентские бенчмарки пытаются унифицировать код для работы с разными…
Многие агентские бенчмарки пытаются унифицировать код для работы с разными моделями: используют одни и те же наборы инструментов, промпты, одинаково управляют…