Мультимодальная генерация в ChatGPT Наконец-то завезли нативную генерацию картинок в 4o, обещанную ещё в прошлом году. В этот раз на стрим заявился даже сам Сэм Альтман. Появилось всё то же, от чего мы восторгались в мультимодальной генерации Gemini Flash 2.0, но гораздо лучше. Хотя, судить о качестве пока рано — я быстро потестил и скажу, что фотореализм модель не генерит. Оно и ожидаемо, так как пока что LLM-ки генерят изображения хуже, чем чисто диффузионные модели. Поэтому и в шоукейсе (по крайней мере на стриме) не показали ни одного изображения в реалистичном стиле. Всё было больше стилизованным, иллюстративным. Можно, конечно попробовать сделать более фотореалистичный стиль через какой-нибудь Flux, либо вытянуть детали через диффузионный апскейлер вроде этого. Но будет уже не то пальто. Вообще, это уже какой-то тренд. Кто-то релизит какую-то прикольную фичу, которую OpenAI анонсировали 100 лет назад. А потом приходит Сэма и всех уделывает (или нет). Блогпост Тред с видосами OpenAI @ai_newz