Google выложили отдельный блогпост о том, как хороша их модель в обработке… — @seeallochnaya

Google выложили отдельный блогпост о том, как хороша их модель в обработке изображений и видео. Perception у моделей семейства Gemini традиционно хороший — самописные каракули распознаёт стабильно. Очень солидные приросты в категории Screen с двумя бенчмарками, направленными на понимание пользовательских интерфейсов — что означает, что модель должна хорошо понимать, куда кликать, чтобы сделать то или иное действие. К сожалению, до сих пор не увидел ни одного замера на Computer Using Agents-бенчмарках вроде OSWorld — во времена релиза 2.5 Google их прям сразу выставил, а тут тянут 🤔 Мой достаточно ограниченный опыт взаимодействия с агентом для кодинга на основе Gemini 3 больше негативный — модели сложно даются длинные цепочки изменений с вызовом инструментов. А как у вас? Слезли с Claude / Codex? P.S.: что точно очень нравится — это написание текстов, ответы читать приятнее, чем у механической GPT-5 (и по формату, и по формулировкам). Вопросы по статьям теперь закидываю в неё.

Из этого канала