Моделей для длинного контекста прибыло. Gecko: An Efficient Neural Architecture Inherently Processing Sequences with Arbitrary Lengths __Xuezhe Ma, Shicheng Wen, Linghao Jin, Bilge Acun, Ruihang Lai, Bohan Hou, Will Lin, Hao Zhang, Songlin Yang, Ryan Lee, Mengxi Wu, Jonathan May, Luke Zettlemoyer, Carole-Jean Wu__ Статья: https://arxiv.org/abs/2601.06463 Код: https://github.com/XuezheMax/gecko-llm Ревью: https://arxiviq.substack.com/p/gecko-an-efficient-neural-architecture # TL;DR ЧТО сделали: Предложили Gecko — архитектуру на 7B параметров, построенную на базе Megalodon (https://arxiv.org/abs/2404.08801) с использованием Gated Attention и экспоненциального скользящего среднего. Авторы внедрили три ключевых улучшения для стабилизации линейного внимания: Timestep Decay Normalization (стабилизация статистик во времени), Sliding Chunk Attention (устранение артефактов на границах чанков) и Adaptive Working Memory (сжатие истории в фиксированное состояние без принудительного забывания, типичного для SSM). ПОЧЕМУ это важно: Gecko достигает значения лосса 1.68 на 2T токенов, обгоняя Llama 2-7B (1.75) и Megalodon-7B (1.70), при этом сохраняя эффективность моделей с линейным временем работы. Уникальная фишка — *врождённая* способность работать с длинным контекстом: модель успешно извлекает информацию из контекста длиной до 4 миллионов токенов без специального файнтюнинга или трюков с расширением контекста, что бросает серьёзный вызов гегемонии трансформеров в задачах с ультра-длинными последовательностями. Подробнее: https://t.me/gonzo_ML_podcasts/2145