Что классно в свежей картиночной генерации, это работа с текстом. Она наконец стала отличной. Архитектурно единая модель с авторегрессионной генерацией устраняет бутылочные горлышки интеграции с внешними диффузионками типа DALLE, где огромное количество деталей терялось. А помните, пару лет назад мы все смеялись над неправильным числом пальцев? Всё, проехали и забыли. Также и с текстом сейчас забудем. Смейтесь над текущими багами, пока они ещё есть, модели улучшаются очень быстро :) https://openai.com/index/gpt-4o-image-generation-system-card-addendum/ https://cdn.openai.com/11998be9-5319-4302-bfbf-1167e093f1fb/Native_Image_Generation_System_Card.pdf
Что классно в свежей картиночной генерации, это работа с текстом. Она наконец…
Из этого канала
- #3501Intuitive physics understanding emerges from self-supervised pretraining on…
Intuitive physics understanding emerges from self-supervised pretraining on natural videos Quentin Garrido, Nicolas Ballas, Mahmoud Assran, Adrien Bardes,…
- #3502На уровне деталей в V-JEPA входное видео (размерности T×H×W — T кадров размера…
На уровне деталей в V-JEPA входное видео (размерности T×H×W — T кадров размера H×W) растягивается в последовательность L токенов.
- #3503Наличие разных датасетов с фокусом на различные активности ожидаемо влияет.…
Наличие разных датасетов с фокусом на различные активности ожидаемо влияет. Например, обучая только на датасете про движения SSv2 константность формы…
- #3497Не про ML, но вдруг у вас есть сейчас возможность наблюдать, а вы не знали. Не…
Не про ML, но вдруг у вас есть сейчас возможность наблюдать, а вы не знали. Не забывайте про защиту глаз! P.S.
- #3495Жызнь кипит! https://blog.google/technology/google-deepmind/gemini-model-thinkin…
Жызнь кипит! https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/#gemini-2-5-thinking