Опенсорсная модель с ризонингом K2-Think (не путать с Kimi K2) от LLM360 имеет размер всего 32B (построена на базе Qwen2.5), но бьёт многие более тяжёлые открытые модели. Спасибо фулл-стэк подходу, включающему обучение (SFT+RLVR), тест-тайм скейлинг (планирование и best-of-3) и инференс (спекулятивное декодирование и работу на Cerebras (!)). https://t.me/gonzo_ML_podcasts/823 Термин фулл-стэк приходит в ML :)
Опенсорсная модель с ризонингом K2-Think (не путать с Kimi K2) от LLM360 имеет…
Из этого канала
- #4023Важный апдейт про развенчание заоблачного перформанса K2-Think от независимой…
Важный апдейт про развенчание заоблачного перформанса K2-Think от независимой команды.
- #4025Ещё одна любопытная недавно нашумевшая работа про SpikingBrain LLM, где взяли…
Ещё одна любопытная недавно нашумевшая работа про SpikingBrain LLM, где взяли Qwen2.5 и делают на его базе эффективную модель.
- #4026Стартап Миры Мурати разродился на этой неделе первым постом в блоге. Тема:…
Стартап Миры Мурати разродился на этой неделе первым постом в блоге. Тема: воспроизводимость ответов LLM.
- #4019Annual base compensation
Annual base compensation
- #4011🕵️ Факт 4: Общефирменные шоки не влияют на это снижение. Регрессионный анализ…
🕵️ Факт 4: Общефирменные шоки не влияют на это снижение. Регрессионный анализ на основе распределения Пуассона подтверждает, что эти тенденции не являются…