Важный апдейт про развенчание заоблачного перформанса K2-Think от независимой команды. Оценка была некорректная, включала контаминацию, занижала скоры других моделей и использовала их неоптимальным образом. Микро-усреднение также даёт избыточно высокий вес (66%) бенчмарку, на котором модель лучше всего. Плюс претензии к неравному сравнению: best-of-3 vs. best-of-1 и неизвестного размера внешняя модель-помощник. Этот момент интересный, поскольку во многих случаях и так уже неясно, сравниваем мы чистую модель или какую-то систему с моделью, что особенно часто проявляется при сравнении с закрытыми моделями. Мне кажется было бы правильно сравнивать нормируя на вычислительные ресурсы. https://www.sri.inf.ethz.ch/blog/k2think Авторы сделали переоценку на MathArena:
Важный апдейт про развенчание заоблачного перформанса K2-Think от независимой…
Из этого канала
- #4025Ещё одна любопытная недавно нашумевшая работа про SpikingBrain LLM, где взяли…
Ещё одна любопытная недавно нашумевшая работа про SpikingBrain LLM, где взяли Qwen2.5 и делают на его базе эффективную модель.
- #4026Стартап Миры Мурати разродился на этой неделе первым постом в блоге. Тема:…
Стартап Миры Мурати разродился на этой неделе первым постом в блоге. Тема: воспроизводимость ответов LLM.
- #4027Огромная работа с обзором всего современного RL для ризонинга:…
Огромная работа с обзором всего современного RL для ризонинга: https://t.me/gonzoMLpodcasts/849
- #4021Опенсорсная модель с ризонингом K2-Think (не путать с Kimi K2) от LLM360 имеет…
Опенсорсная модель с ризонингом K2-Think (не путать с Kimi K2) от LLM360 имеет размер всего 32B (построена на базе Qwen2.5), но бьёт многие более тяжёлые…
- #4019Annual base compensation
Annual base compensation