Ещё одна любопытная недавно нашумевшая работа про SpikingBrain LLM, где взяли Qwen2.5 и делают на его базе эффективную модель. В этот раз более спайко-подобную, хорошо работающую на очень длинном контексте и потенциально намного более энергоэффективную. Это ещё не полноценная спайковая сеть на нейроморфном процессоре, но уже шаг. Гоняют на китайском GPU MetaX. Очень перекликается с K2-Think, хоть его результаты и обругали (ничего, исправят в следующей версии). Везде фулл-стек инжиниринг, в обеих работах не-нвидиевское железо и база Qwen2.5. Всё, я уже жду вакансии фулл-стеков в ML! https://t.me/gonzo_ML_podcasts/834
Ещё одна любопытная недавно нашумевшая работа про SpikingBrain LLM, где взяли…
Из этого канала
- #4026Стартап Миры Мурати разродился на этой неделе первым постом в блоге. Тема:…
Стартап Миры Мурати разродился на этой неделе первым постом в блоге. Тема: воспроизводимость ответов LLM.
- #4027Огромная работа с обзором всего современного RL для ризонинга:…
Огромная работа с обзором всего современного RL для ризонинга: https://t.me/gonzoMLpodcasts/849
- #4030"16 сентября у Элиезера Юдковского выходит новая книга! О книге уже…
"16 сентября у Элиезера Юдковского выходит новая книга! О книге уже положительно отозвались крупные учёные (от самого высокоцитируемого живущего учёного и…
- #4023Важный апдейт про развенчание заоблачного перформанса K2-Think от независимой…
Важный апдейт про развенчание заоблачного перформанса K2-Think от независимой команды.
- #4021Опенсорсная модель с ризонингом K2-Think (не путать с Kimi K2) от LLM360 имеет…
Опенсорсная модель с ризонингом K2-Think (не путать с Kimi K2) от LLM360 имеет размер всего 32B (построена на базе Qwen2.5), но бьёт многие более тяжёлые…