LLM-фотошоп от Google Сорри, гайз, не удержался, чтобы не поделиться. Давненько… — @ai_driven

LLM-фотошоп от Google Сорри, гайз, не удержался, чтобы не поделиться. Давненько меня AI так не удивлял. В общем, новая моделька от Google (`gemini-2.0-flash-exp`) получилась настолько мультимодальная, что научилась не только принимать изображения, но и отдавать отредактированное в соответствии с запросом пользователя изображение обратно. Посмотрите скрины, сразу станет понятно. Ссылка на наш полный диалог: https://aistudio.google.com/app/prompts?state=%7B%22ids%22:%5B%221leiAYVPmJFRFkU1KdrNu3xgr0TcjckQn%22%5D,%22action%22:%22open%22,%22userId%22:%22112838537316031640393%22,%22resourceKeys%22:%7B%7D%7D&usp=sharing Самое крутое, что эта штука уже доступна по API, т. е. гипотетически можно делать AI-фотошоп в виде телеграм бота и при должной раскрутке, вероятно, неплохо зарабатывать на этом. Моделька эта экспериментальная и пока адекватный результат может выдавать не с первого раза. Но вот вам возможное решение: берем и дружим эту модель с какой-нибудь другой хорошей VL моделью - генерим изменение через `gemini-2.0-flash-exp`, отправляем результат на анализ другой ллмке, и затем, если вышло плохо, повторяем попытку - вот уже и результаты будут сильно стабильнее. В общем, дарю идею и подход) Ну, и наверняка, можно напридумывать массу частных кейсов, решающих какую-то конкретную узкую задачу для бизнеса. Доступно это великолепие в Google AI Studio (модель gemini-2.0-flash-exp), либо через API.

Из этого канала