Новую архитектуру подвезли! ‘Dragon Hatchling’ (BDH) построена на принципах распределённых графовых моделей мозга, при этом есть GPU-friendly имплементация. Выглядит очень интересно и демонстрирует свойства, характерные для биологических систем. https://t.me/gonzo_ML_podcasts/906 Более фундаментальное изменение, чем например недавние Tversky Neural Networks (https://t.me/gonzo_ML/3932).
Новую архитектуру подвезли! ‘Dragon Hatchling’ (BDH) построена на принципах…
Из этого канала
- #4089Прикольная свежая работа от Superintelligence Labs, включая Руслана…
Прикольная свежая работа от Superintelligence Labs, включая Руслана Салахутдинова.
- #4091Вышел новый State of AI report 2025! https://www.stateof.ai/ Всегда достойно…
Вышел новый State of AI report 2025! https://www.stateof.ai/ Всегда достойно изучения.
- #4092"Неужели мы наблюдаем возрождение эволюционных стратегий как альтернативы RL? Я…
"Неужели мы наблюдаем возрождение эволюционных стратегий как альтернативы RL? Я помню ту работу 2017 года от OpenAI и Суцкевера в частности ""Evolution…
- #4071Обучают dense декодеры с GQA, RMSNorm + pre-norm, RoPE. Модели 1.5B и 3B.…
Обучают dense декодеры с GQA, RMSNorm + pre-norm, RoPE. Модели 1.5B и 3B. Оптимизатор AdamW. Токенизатор Llama3, словарь 128k + 256 зарезервированных токенов.
- #4070Stochastic activations Maria Lomeli, Matthijs Douze, Gergely Szilvasy, Loic…
Stochastic activations Maria Lomeli, Matthijs Douze, Gergely Szilvasy, Loic Cabannes, Jade Copet, Sainbayar Sukhbaatar, Jason Weston, Gabriel Synnaeve,…