"3 избранных статьи с ICLR 2026 Вчера закончилась одна из трех главных ежегодных мировых конференций по искусственному интеллекту – ICLR 2026. Именно тут публикуются ключевые работы, которые в последствие ложатся в основу реальной практики. На основе официальных наград и того, что реально обсуждали участники и индустрия вокруг конференции, мы выбрали три статьи, на которые стоит обратить внимание. Коротко разберем, в чем их суть и почему про них говорят: 1️⃣ Победитель номинации ""Outstanding Papers"" – статья немецких ученых ""Трансформеры лаконичны по природе"". Теоретическая работа, в которой доказывают удивительную вещь: трансформеры оказались не просто мощными, а экспоненциально более компактными по сравнению с классическими моделями. То есть они могут описывать сложные зависимости в данных в разы короче, чем автоматы, логические формулы или RNN. Поэтому-то LLM и стрельнули. Цена за это – черный ящик: из-за таких способностей к сжатию трансформеры становится крайне сложно анализировать и проверять. 2️⃣ Совместная статья ученых из Red Hat AI, ETH Zürich и Yandex Research – про качественное квантование. Все хотят запускать большие модели в 4 бита – это дает до ~2–4× ускорения и сильную экономию памяти. Так вот данная статья примечательна тем, что в ней доказали: FP4-форматы от NVIDIA на практике работают хуже, чем было обещано. Существующие методы квантования приводят к существенной просадке качества. Авторы провели подробный анализ разных идей, способных потенциально улучшить качество квантизации, и предложили свой алгоритм MR-GPTQ, который подгоняет квантование под особенности FP4. Он заметно повышает точность по сравнению с предыдущими методами и при этом позволяет эффективно использовать аппаратные возможности ускорителей нового поколения. Приложены к тому же готовые ядра для инференса, так что полученный результат имеет реальное практическое применение. Пользуясь случаям, поздравляем ребят из Яндекс с отличной работой. Кстати, кроме этой статьи они привезли на ICLR еще целых пять. В канале ML Underhood делали разбор всех. 3️⃣ Статья от Apple – они научились параллелить RNN. Долгое время RNN считались «мертвыми» для больших моделей: их нельзя нормально параллелить – они считают последовательность по шагам, один за другим. Поэтому всех вытеснили трансформеры. Apple показали, что это не фундаментальное ограничение. Они переписали работу RNN как одну большую систему уравнений и научились решать ее параллельно. В итоге – ускорение до 600+ раз по сравнению с обычным последовательным режимом. Вишенка: они обучили классические RNN (LSTM/GRU) размером до 7B параметров, и они по качеству почти догоняют трансформеры и Mamba. В комментариях открываем reading club: присылайте ссылки на статьи, которые приглянулись вам 👓"
"3 избранных статьи с ICLR 2026 Вчера закончилась одна из трех главных…
Из этого канала
- #9127Anthropic оценили в 1 триллион долларов: это больше, чем текущая оценка OpenAl…
Anthropic оценили в 1 триллион долларов: это больше, чем текущая оценка OpenAl Правда, это только на вторичном рынке акций, но это уже говорит о многом.
- #9128Промпт инжиниринг изучен на 0.01% В новый системный промпт gpt-5.5 в Codex…
Промпт инжиниринг изучен на 0.01% В новый системный промпт gpt-5.5 в Codex добавили следующее (дословный перевод): Никогда не говори о гоблинах, гремлинах,…
- #9129Решайте DevOps-, SRE- и FinOps-задачи с помощью облачного ИИ-помощника 💬…
Решайте DevOps-, SRE- и FinOps-задачи с помощью облачного ИИ-помощника 💬 Большое обновление от Cloud.ru.
- #9123Кошмары при температуре 39
Кошмары при температуре 39
- #9122DCGAN получил награду Test of Time на ICLR 2026 Каждый год на ICLR, как и на…
DCGAN получил награду Test of Time на ICLR 2026 Каждый год на ICLR, как и на многих других крупных мировых ИИ-конфах, награждают статьи десятилетней давности,…