"Гугол выкатил новую фичу для Gemini 3 Flash - Agentic Vision. Суть в том, что раньше нейронка смотрела на картинку один раз целиком и часто пропускала мелкие детали, а то и вообще галлюцинировала и придумывала себе то, чего на картинке нет. Теперь же это полноценный агентный процесс с циклом Think, Act, Observe. Модель реально ""разглядывает"" изображение: она пишет и исполняет Python код, чтобы взаимодействовать с картинкой. Что умеет: — Активный зум: Если нейронка видит сложный чертеж или мелкий текст, она сама решит кропнуть нужный кусок, приблизить его и рассмотреть отдельно. — Аннотации: Чтобы нормально посчитать объекты (например, пальцы на руке, лол), модель теперь рисует на них bounding box'ы и цифры прямо поверх изображения. Это помогает ей не сбиваться со счета. — Визуальная математика: Видит таблицу -> пишет код -> строит нормальный график через Matplotlib, вместо того чтобы выдумывать цифры из своей кремниевой башки. Обещают прирост качества на бенчах на 5-10%. Уже доступно через API иGoogle AI Studio. тут подробнее"
"Гугол выкатил новую фичу для Gemini 3 Flash - Agentic Vision. Суть в том, что…
Из этого канала
- #7163Максимально гениально. Мне срочно нужна эта штука
Максимально гениально. Мне срочно нужна эта штука
- #7164Молчание — золото 💵 Знаковое событие. Хаби Лейм (тот самый молчаливый тиктокер…
Молчание — золото 💵 Знаковое событие. Хаби Лейм (тот самый молчаливый тиктокер с покерфейсом, 160 млн подписчиков) продал свою компанию за $900M.
- #7165Как ИИ-агенты решают проблемы в коде
Как ИИ-агенты решают проблемы в коде
- #7160"В нашем АИ-пузыре новый тренд - упоротые АИ-бро ставят себе - Clawdbot Это не…
"В нашем АИ-пузыре новый тренд - упоротые АИ-бро ставят себе - Clawdbot Это не нейросеть, это что-то вроде ""шлюза и агента"" сразу: После установки, ты пишешь…
- #7159Дети до 3х лет массово научились танцевать В интернете уже собралось полно…
Дети до 3х лет массово научились танцевать В интернете уже собралось полно роликов, где маленькие дети танцуют сложные танцы.