"3 избранных статьи с ICLR 2026 Вчера закончилась одна из трех главных ежегодных мировых конференций по искусственному интеллекту – ICLR 2026. Именно тут публикуются ключевые работы, которые в последствие ложатся в основу реальной практики. На основе официальных наград и того, что реально обсуждали участники и индустрия вокруг конференции, мы выбрали три статьи, на которые стоит обратить внимание. Коротко разберем, в чем их суть и почему про них говорят: 1️⃣ Победитель номинации ""Outstanding Papers"" – статья немецких ученых ""Трансформеры лаконичны по природе"". Теоретическая работа, в которой доказывают удивительную вещь: трансформеры оказались не просто мощными, а экспоненциально более компактными по сравнению с классическими моделями. То есть они могут описывать сложные зависимости в данных в разы короче, чем автоматы, логические формулы или RNN. Поэтому-то LLM и стрельнули. Цена за это – черный ящик: из-за таких способностей к сжатию трансформеры становится крайне сложно анализировать и проверять. 2️⃣ Совместная статья ученых из Red Hat AI, ETH Zürich и Yandex Research – про качественное квантование. Все хотят запускать большие модели в 4 бита – это дает до ~2–4× ускорения и сильную экономию памяти. Так вот данная статья примечательна тем, что в ней доказали: FP4-форматы от NVIDIA на практике работают хуже, чем было обещано. Существующие методы квантования приводят к существенной просадке качества. Авторы провели подробный анализ разных идей, способных потенциально улучшить качество квантизации, и предложили свой алгоритм MR-GPTQ, который подгоняет квантование под особенности FP4. Он заметно повышает точность по сравнению с предыдущими методами и при этом позволяет эффективно использовать аппаратные возможности ускорителей нового поколения. Приложены к тому же готовые ядра для инференса, так что полученный результат имеет реальное практическое применение. Пользуясь случаям, поздравляем ребят из Яндекс с отличной работой. Кстати, кроме этой статьи они привезли на ICLR еще целых пять. В канале ML Underhood делали разбор всех. 3️⃣ Статья от Apple – они научились параллелить RNN. Долгое время RNN считались «мертвыми» для больших моделей: их нельзя нормально параллелить – они считают последовательность по шагам, один за другим. Поэтому всех вытеснили трансформеры. Apple показали, что это не фундаментальное ограничение. Они переписали работу RNN как одну большую систему уравнений и научились решать ее параллельно. В итоге – ускорение до 600+ раз по сравнению с обычным последовательным режимом. Вишенка: они обучили классические RNN (LSTM/GRU) размером до 7B параметров, и они по качеству почти догоняют трансформеры и Mamba. В комментариях открываем reading club: присылайте ссылки на статьи, которые приглянулись вам 👓"