Стартап Subquadratic анонсировал языковую модель SubQ с контекстным окном 12М токенов Это не все: она также выдает невероятную скорость в 150 токенов/сек, обгоняет Claude Opus 4.6 на SWE-bench, и при этом ее стоимость составляет 5% от стоимости Opus (прочитайте это снова). Секрет SubQ, как говорят создатели, в архитектуре. А точнее, в использовании нового вида механизма внимания – sub-quadratic sparse-attention. Идея в том, чтобы вычислять внимание только по разреженному набору наиболее важных связей, а не по всей матрице целиком. Метод позволяет достичь линейной (!!!) вычислительной сложности относительно длины контекста и на длинных контекстных окнах достигает ускорения в 52 раза относительно FlashAttention. Звучит как полный прорыв в экономике инференса. Но, как обычно, есть нюанс: пока все эти громкие заявления живут только на словах. Проект находится в закрытой бете, техрепорта нет, доступов нет. Пока выложили только небольшой блог и разбор их механизма внимания. Посмотрим, что из этого выйдет