Выложили препринт прикольной работы от Юры Куратова из группы «Модели с памятью» Лаборатории «Когнитивные системы ИИ» AIRI и коллег. Исследование о том, где находятся «границы» современных архитектур трансформеров, насколько большой объём информации они могут эффективно хранить и обрабатывать внутри себя. Оказалось, что Llama-3.1-8B спокойно генерирует тексты длиной в 1568 токенов из одного вектора. Более того, если увеличивать число входных векторов, то масштабируется это практически линейно. То есть можно сжать контекст 8B модельки в 1500 раз, потенциально без потери информации. Следующий шаг — выучить небольшими силам энкодер, который такое сжатие сделает. https://huggingface.co/papers/2502.13063
Выложили препринт прикольной работы от Юры Куратова из группы «Модели с…
Источник
https://t.me/Ivan_Oseledets/177Канал Ivan Oseledets’ Channel · опубликовано 19 февр. 2025 г.
Из этого канала
- #182Сегодня на международном фестивале науки «ComInfFest-2025» вместе с кандидатом…
Сегодня на международном фестивале науки «ComInfFest-2025» вместе с кандидатом технических наук, доцентом, ректором МТУСИ Сергеем Ерохиным подписали соглашение…
- #186Вчера вечером умер мой папа, Валерий Иустинович Оселедец. Родился в 1940 году,…
Вчера вечером умер мой папа, Валерий Иустинович Оселедец. Родился в 1940 году, в Москве, пережил бомбежки города.
- #187⚡️Открываем прием заявок на Лето с AIRI 2025! В этом году мы запускаем Школу…
⚡️Открываем прием заявок на Лето с AIRI 2025! В этом году мы запускаем Школу совместно с ТГУ. Программа пройдет в Томске с 30 июня по 10 июля.
- #172Соревнование AIRI х ИППИ РАН на CVPR 2025 🚀 Открыли прием заявок на участие в…
Соревнование AIRI х ИППИ РАН на CVPR 2025 🚀 Открыли прием заявок на участие в челлендже по вычислительной фотографии NTIRE 2025 Night Photography Rendering…
- #171"Вчера в Сколтехе защитился Алексей Бойко. Леша, поздравляю! Он стал 2️⃣0️⃣…
"Вчера в Сколтехе защитился Алексей Бойко. Леша, поздравляю! Он стал 2️⃣0️⃣ защитившимся кандидатом наук/PhD под моим руководством.