Моделей для длинного контекста прибыло. Gecko: An Efficient Neural Architecture Inherently Processing Sequences with Arbitrary Lengths __Xuezhe Ma, Shicheng Wen, Linghao Jin, Bilge Acun, Ruihang Lai, Bohan Hou, Will Lin, Hao Zhang, Songlin Yang, Ryan Lee, Mengxi Wu, Jonathan May, Luke Zettlemoyer, Carole-Jean Wu__ Статья: https://arxiv.org/abs/2601.06463 Код: https://github.com/XuezheMax/gecko-llm Ревью: https://arxiviq.substack.com/p/gecko-an-efficient-neural-architecture # TL;DR ЧТО сделали: Предложили Gecko — архитектуру на 7B параметров, построенную на базе Megalodon (https://arxiv.org/abs/2404.08801) с использованием Gated Attention и экспоненциального скользящего среднего. Авторы внедрили три ключевых улучшения для стабилизации линейного внимания: Timestep Decay Normalization (стабилизация статистик во времени), Sliding Chunk Attention (устранение артефактов на границах чанков) и Adaptive Working Memory (сжатие истории в фиксированное состояние без принудительного забывания, типичного для SSM). ПОЧЕМУ это важно: Gecko достигает значения лосса 1.68 на 2T токенов, обгоняя Llama 2-7B (1.75) и Megalodon-7B (1.70), при этом сохраняя эффективность моделей с линейным временем работы. Уникальная фишка — *врождённая* способность работать с длинным контекстом: модель успешно извлекает информацию из контекста длиной до 4 миллионов токенов без специального файнтюнинга или трюков с расширением контекста, что бросает серьёзный вызов гегемонии трансформеров в задачах с ультра-длинными последовательностями. Подробнее: https://t.me/gonzo_ML_podcasts/2145
Моделей для длинного контекста прибыло. Gecko: An Efficient Neural Architecture…
Из этого канала
- #4603Чуть не забыл
Чуть не забыл
- #4605The Day After AGI / WEF 2026 Вчера в Давосе прошла дискуссия между Демисом…
The Day After AGI / WEF 2026 Вчера в Давосе прошла дискуссия между Демисом Хассабисом и Дарио Амодеи на тему вокруг AGI…
- #4606"Помните, как в пионерлагере рассказывали друг другу на ночь страшные истории?…
"Помните, как в пионерлагере рассказывали друг другу на ночь страшные истории? Про чёрную руку там, или зелёные глаза, или гроб на колёсиках, или ещё…
- #4599Sakana опубликовали любопытный пост: An Unofficial Guide to Prepare for a…
Sakana опубликовали любопытный пост: An Unofficial Guide to Prepare for a Research Position Application https://pub.sakana.ai/UnofficialGuide/ Может быть…
- #4596Ризонинг работает не так, как мы думали! Всё дело в ~~волшебных пузырьках в~~…
Ризонинг работает не так, как мы думали! Всё дело в ~~волшебных пузырьках в~~ голосах в голове~~.~~ Оказывается, там внутри создаются разные перспективы,…