⚡️Анонсирован Flash Attention 4 Прирост по сравнению со стандартной имплементацией из cuDNN доходит до 22% на Blackwell (SM100). Интересная особенность — Flash Attention 4 написан на Python с использованием CuTe DSL. Две основные оптимизации — эмуляция экспоненты через софт (нативная экспонента в железе слишком медленная) и новый алгоритм online softmax, который на 90% меньше рескейлит аутпут, за счёт чего и быстрее. Пока что есть только forward pass, так что потренировать с FA4 не выйдет 😭. Кернел @ai_newz
⚡️Анонсирован Flash Attention 4 Прирост по сравнению со стандартной…
Из этого канала
- #4131Nano-banana, которая хайповала последнюю неделю в интернете оказалась…
Nano-banana, которая хайповала последнюю неделю в интернете оказалась Gemini-2.5-flash-image Гугл жёстко порвал всех на задаче редактирования изображений по…
- #4133К посту выше. @ainewz
К посту выше. @ainewz
- #4134xAI релизнули Grok Code Fast 1 Это небольшая и дешёвая агентная модель для…
xAI релизнули Grok Code Fast 1 Это небольшая и дешёвая агентная модель для кодинга с 256к токенов контекста, бенчей пока нет.
- #4129"Оказалось Codex CLI теперь включён в подписку ChatGPT Я как-то не заметил…
"Оказалось Codex CLI теперь включён в подписку ChatGPT Я как-то не заметил анонса об этом из-за релиза GPT-5, но Codex CLI теперь доступен подписчикам ChatGPT…
- #4127Нейродайджест за неделю (#83) LLM - DeepSeek V3.1 — Очередной апдейт гибридной…
Нейродайджест за неделю (#83) LLM - DeepSeek V3.1 — Очередной апдейт гибридной модели с деталями: упор на агентные задачи, улучшенная токенизация и новый…