"ГЛУПАЯ НЕЙРОНКА - ЧАСТЬ 1 😛 Очень часто именно азбуку используют как… — @aivkube

"ГЛУПАЯ НЕЙРОНКА - ЧАСТЬ 1 😛 Очень часто именно азбуку используют как иллюстрацию идеи про ""глупую нейронку"", которая смешивает в кучу символы и образы, рождая чудовищ. Меж тем еще полгода назад можно было добиться идеальной картинки с помощью одного запроса. Для меня стала вызовом идея сделать такой oneshot-промпт, чтобы создать с одного шага правильный букварь. Чтобы понять это, пришлось потратить немало времени на изучение того, как ИИ обрабатывает подобные запросы и что влияет на качество. 1. Данные, на которых учится AI Во-первых, ""проблемными"" являются чаще всего не ""латинские"", а именно кириллические варианты. Исторически они всегда тяготели к невероятной образности. Посмотрите на пример 1921 года, где каждой букве соответствует отдельная полноценная иллюстрация. Отделить ее от символа, особенно если рядом еще вариант из прописей - не самая простая задача. Кроме того, наполнение азбук не является каноном - в разные годы одна и та же буква обозначалась отличающимися объектами (О = Оса или Обезьяна, как в варианте 1983 года). В букваре Горецкого 1971 года, по которому учился я (и, скорее всего, многие из вас), на одну букву приходится несколько образов (Аист и Арбуз). В азбуке 1963 года для обозначения Ы Дым идет из трубы Дома, Й - это ПопугаЙ, а буквы расставлены не по алфавиту(!). Интересно, что по ключевым образам каждой книги можно понять, в каком году она была написана, и как менялся фокус с войны на сельское хозяйство и науку. Получается, чтобы расшифровать некоторые задумки иллюстраторов, даже взрослому придется потратить 3-5 секунд. Представьте, каково нейронкам, когда они пытаются научиться на таких разных и сложных примерах. 2. Проблема понимания контента и токенизация Если задуматься, то Азбука - это таблица из 30 ячеек, каждая из которых не просто содержит данные, а задает соответствие Символ - Слово - Образ. Но модель не оперирует понятиями «ячейка» и «таблица», она просто пытается предсказать следующий участок изображения,формируя его из шума, поэтому в процессе у неё жестко дрейфует внимание (Гусь «перетягивает» клетку с буквой В). У модели нет встроенного знания «В = Волк = изображение ~~ключа~~ волка». Есть только вероятностные ассоциации, да ещё и по всему канвасу сразу. Поэтому появляются сдвиги (К<>Л), дубли и пропуски - сетка никак не замыкает соответствия. Как правило, при переходе на 4-5 шаг, внутренний токен начинает переиспользоваться, и часть информации смещается. Когда модель переходит к новой строке, то новая связка ей кажется менее надёжной, и она соскальзывает к более вероятной (классические «Белка», «Панда», «Кот», которые размножаются по всему листу). Сильные, часто встречающиеся паттерны выталкивают более редкие (Юрок/Юла, Щука, Йорк). Модель выбирает не правильный вариант, а самый изученный. И даже если вы решили использовать очень подробный промпт, то визуальная модель часть текста обрежет или сильно сожмет, активнее реагируя на начало (Русский алфавит, животные), чем конкретику по рядам (строгое соответствие каждой букве), которая быстро теряется и становится лишь слабым намёком. И даже когда модель генерирует много похожих ячеек подряд она выбирает самую сильную и узнаваемую ячейку в ряду (чаще всего первую), воспринимает её как “шаблон ряда”, который копируется, подменяет другие ячейки и затирает уникальность следующих карточек. 3. Особенность диффузных моделей Исторически DALL-E и прочие рисоваторы создавались как генераторы пикселей. Они не умеют выполнять алгоритмы, им нельзя сказать ""сначала нарисуй таблицу, потом напиши буквы"". И, кстати, писать они не умеют - в них нет механизма векторного текста. Казалось бы - что сложного в этой реализации? Но чтобы наложить идеальный текст, нужны: текстовый слой, шрифт, позиционирование, рендеринг глифов, контроль пиксель-перфект совпадений. А у диффузионных моделей нет такой подсистемы в принципе. Разработчики сознательно не добавляли многоступенчатый пайплайн. Кроме того, модели не умеют ""читать"" то, что они же и сгенерировали."

Из этого канала