🤫 Полностью сгенерированная Операционная Система __Как нейронная сеть учится притворяться Ubuntu и почему это заставляет по-новому взглянуть на то, что мы видим на экране__ Когда вы двигаете курсор, открываете папку или набираете команду в терминале, кажется, что «компьютер действительно что-то делает». Но если посмотреть на компьютер с точки зрения стороннего наблюдателя не знакомого с внутренними процессами, всё сводится к тому, что несколько миллионов прямоугольников-пикселей перекрашиваются в другие цвета — кадр за кадром. Команда из Университета Ватерлоо и NRC Canada пошла ва-банк и решила: раз «всё равно нужно показывать пиксели», значит саму операционку можно целиком сгенерировать. Они собрали NeuralOS — модель, которая получает поток событий «мышь-клавиатура» и каждый раз __галлюцинирует__ следующую картинку экрана. Никакого кода файлового менеджера, никакого Firefox внутри контейнера — только рекуррентная нейросеть, следящая за состоянием, и диффузионный «художник», дорисовывающий кадр. За кулисами всё выглядит так. • Сначала автоэнкодер ужимает скриншот Ubuntu XFCE до латентного «мини-скрина» 64 × 48 × 16. • Два LSTM-слоя держат в памяти, что открыто и куда смотрит курсор, причём позиция курсора кодируется мягкой двухмерной «гауссианой», чтобы не промахнуться ни на пиксель. • Дальше UNet-диффузор берёт эту «память» и возвращает на экран новый кадр — уже в цвете, уже со всеми иконками и тенью под окном. Обучали чудовище на 120 000 случайных сессий и 2000 «разумных» сессий, которые имитировал агент Claude 3.5. И да, чтобы мышка летала естественно, авторы заставляли алгоритм чертить кривые Безье, а не случайную пилу. Результат удивительно живой: курсор «промахивается» в среднем меньше чем на два пикселя, переходы в меню угадываются в трети случаев, а запустить демонстрацию можно в браузере — правда, пока со скоростью 1,8 FPS на H100. Сценарий «напечатать длинную команду в терминал» NeuralOS ещё путает, зато окно «Домашняя папка» появляется с такой же задержкой, как на настоящем неторопливом ноуте. Почему это важно нам, разработчикам? 1. Зеркало интерфейсов. Мы привыкли отделять «код» от «UI», но NeuralOS показывает, что граница иллюзорна: если модель умеет правильно красить пиксели, пользователь поверит во всё, что угодно. 2. Нейронные симуляторы вместо моков. Представьте тестовую среду, где ваш автотест «щёлкает мышкой», а за кадром нет Selenium-драйвера, вместо нее диффузионная модель, обученная на реальных сессиях. Сетевая нестабильность, лаги, случайные клики — всё появится естественно. 3. Карьерный бонус. Рекуррентная память + диффузия — не самая очевидная пара. Разобравшись, как они дружат, вы прокачаете насмотренность в архитектурах за пределами классических LLM. У NeuralOS, конечно, много «но»: низкое разрешение, чудовищные вычислительные затраты, отсутствие сетевых стэков, да и зачем такой Франкенштейн в проде — неясно. Но сама идея, что поток пикселей можно «выдумывать на лету» звучит очень интересно. Сегодня — игрушка для исследователей, но кто его знает что будет завтра? 💬 Как вам перспектива «генеративного десктопа»? Готовы доверить AI рисовать каждую кнопку, которую нажимаете, или цените стабильность классических окон? Поделитесь мыслями в комментариях и заодно киньте ссылку друзьям-разработчикам — пусть спор разгорится жарче! Статья