DeepSeek предложили новый способ улучшить мультимодальные модели Сейчас модели нормально “видят” изображение, но рассуждают о нем через текст. Из-за этого они теряют точную привязку к объектам и начинают путаться в сложных сценах. В статье это называют Reference Gap. Решение довольно прямое. Вместо чисто текстового ризонинга модель вставляет в процесс координаты. Это точки, чтобы вести путь по изображению, и рамки вокруг объектов. Сначала модель фиксирует, на что смотрит, потом строит рассуждение уже на этих привязках. Архитектура при этом стандартная. ViT кодирует изображение, дальше все идет в MoE LLM. Новое именно в том, что визуальные примитивы становятся частью chain-of-thought, а не просто выходом модели. Лучше всего это работает в задачах, где важна структура. Подсчет объектов, пространственные сравнения, лабиринты, трассировка линий. Интересно, что DeepSeek довольно быстро удалил статью без объяснения причин. Скорее всего случился преждевременный релиз, а может и финальные результаты будут изменены. В любом случае (зеркало): https://github.com/ailuntx/Thinking-with-Visual-Primitives/blob/main/Thinking_with_Visual_Primitives.pdf
DeepSeek предложили новый способ улучшить мультимодальные модели Сейчас модели…
Из этого канала
- #9161В Москве пройдет большой офлайн-квест для разработчиков, где нужно будет…
В Москве пройдет большой офлайн-квест для разработчиков, где нужно будет «починить» сломанную реальность 23 мая Яндекс запускает «Рекурсию по городу» –…
- #9162OpenAI и Anthropic одновременно запустили крупные совместные предприятия (joint…
OpenAI и Anthropic одновременно запустили крупные совместные предприятия (joint ventures) для привлечения enterprise клиентов Примерно в конце марта мы писали…
- #9163Сооснователь Anthropic Джек Кларк утверждает, что само-развивающийся ИИ с 60%…
Сооснователь Anthropic Джек Кларк утверждает, что само-развивающийся ИИ с 60% вероятностью появится уже к концу 2028 года Другими словами, по его мнению, ИИ…
- #9157Приглашаем послушать, как ИИ троллил техногигантов 😏 Поговорим на такие темы,…
Приглашаем послушать, как ИИ троллил техногигантов 😏 Поговорим на такие темы, которые обычно не обсуждают на публике.
- #9156Помните новость о том, что исследователи во главе с Алеком Рэдфордом создали…
Помните новость о том, что исследователи во главе с Алеком Рэдфордом создали винтажную LLM? Если кратко, она обучена исключительно на данных до 1930 года,…