Выложили препринт прикольной работы от Юры Куратова из группы «Модели с памятью» Лаборатории «Когнитивные системы ИИ» AIRI и коллег. Исследование о том, где находятся «границы» современных архитектур трансформеров, насколько большой объём информации они могут эффективно хранить и обрабатывать внутри себя. Оказалось, что Llama-3.1-8B спокойно генерирует тексты длиной в 1568 токенов из одного вектора. Более того, если увеличивать число входных векторов, то масштабируется это практически линейно. То есть можно сжать контекст 8B модельки в 1500 раз, потенциально без потери информации. Следующий шаг — выучить небольшими силам энкодер, который такое сжатие сделает. https://huggingface.co/papers/2502.13063