Мини-отчет о моих свеже-опубликованных статьях. Этот год выдался очень продуктивным и ~~мы сильно попотели~~ нашим статьям очень повезло. В итоге у нас 3/3 статей принято на топовые конференции, и все три получили дополнительные awards. Я работал в основном над генерацией картинок и видео, и немного над ускорением LLM. 1️⃣Autoregressive Distillation of Diffusion Transformers – CVPR25, Oral TL;DR статьи: В обычной диффузии мы семплируем картинки по шагам, где следующий семпл зависит только от одного предыдущего. Мы же дисстилировали diffusion transformer в авторегрессионную архитектуру (как LLM), где используется вся история семплов,и это позволило существенно увеличить качество картинки при очень быстрой генерации в 3–4 шага. Получили SOTA в своем размере на Imagenet-256 и на text2image генерации в 3 шага (1.7B параметров). __Наша статья получила на CVPR высшую награду – Oral (это 18-минутная презентация со сцены, куда выбирают только самые лучшие работы), тогда как остальные статьи просто вывешивают постеры. Oral на CVPR получают < 1% из всех засабмиченых статей. В этой статье я последний автор – это тот, кто вел и руководил проектом (по сути профессорская роль). Я придумал идею, выдал бейзлайн модели и расписал своему интерну Юнгмину (первому автору) какие эксперименты нужно провести, и какие цели мы преследуем в этом ресерче. А Юнгмин виртуозно все реализиовал, выдавив весь сок из модели на бенчмарках.__ Мой интерн выложил даже код. 2️⃣ FlexiDiT: Your Diffusion Transformer Can Easily Generate High-Quality Samples with Less Compute – CVPR25, Spotlight TL;DR статьи: Ускорили diffusion transformer. Мы показали ,как запускать text2image и tex2video генерацию на 80%, 60% либо 40% компьюта с минимальными потерями в качестве. Достигается это за счет того что мы адаптивно меняем размер DiT патча во время инференса. __Тоже статейка с нашим интерном. Она тоже получила Award - Spotlight. Это презентация работы со сцены на 4 минут. Spotlight получили < 3% лучших статей из 13 тысяч засабмиченных.__ 3️⃣ Judge Decoding: Faster Speculative Sampling Requires Going Beyond Model Alignment – ICLR25, Oral TL;DR статьи: Метод семплинга, которыйсильно ускоряет большие LLM. Мы ускорили Llama-3.1 405B в 9× раз с помощью использовани 8b модели в качестве драфта, практичесик без потерь в качестве. __Тут было много драмы, статья с двух ног влетела в топ-3 сильнейших статей по LLM на ICLR на основе среднего рейтинга ревьюеров (еще до вынесения решения.) Я уж думал будет железный Oral, но в итоге __дали всего-лишь Spotlight__. Мы подрасстроились, а через несколько недель пришло письмо, что статью все-таки выбрали на Oral (на ICLR это 12-минутная презентация). В этом году Oral получили только top 1.8% лучших статей! Интерн будет презентовать ее через пару дней в Сингапуре – я, к сожалению, до туда не долетел. Но, надеюсь, увидимся на CVPR в Нэшвилле!__ #резерч #personal #конфа @ai_newz
Мини-отчет о моих свеже-опубликованных статьях. Этот год выдался очень…
Из этого канала
- #3855OpenAI запустили API для генерации картинок через GPT Модель обозвали…
OpenAI запустили API для генерации картинок через GPT Модель обозвали GPT-Image-1. Кроме резолюшена позволяют выбрать и качество — от low до high.
- #3856OpenAI удвоили лимиты на o3 и o4-mini для Plus подписчик Теперь у подписчиков…
OpenAI удвоили лимиты на o3 и o4-mini для Plus подписчик Теперь у подписчиков есть 100 запросов к o3 к неделю, 100 запросов к o4-mini-high в день и целых 300…
- #3857Learn your reference model for real good alignment Ресерчеры из T-Bank AI…
Learn your reference model for real good alignment Ресерчеры из T-Bank AI Research представили новый метод дообучения языковых моделей.
- #3853🚨 Стелс GenAI стартап ищет Principal/Lead AI Engineer и Backend Engineer 🚨…
🚨 Стелс GenAI стартап ищет Principal/Lead AI Engineer и Backend Engineer 🚨 Ребята (ex-FAANG) собирают очень сильную команду в европейском стелс-стартапе, где…
- #3852Нейродайджест за неделю (#65) Жаркая неделя для ЛЛМ LLM - GPT-4.1 — превосходит…
Нейродайджест за неделю (#65) Жаркая неделя для ЛЛМ LLM - GPT-4.1 — превосходит 4o во всем, гораздо лучше следует промпту и 1М контекста по API.